网络爬虫的工作流程

最新推荐文章于 2023-04-24 15:48:02 发布

weixin_30482181

最新推荐文章于 2023-04-24 15:48:02 发布

阅读量2.4k

点赞数 2

文章标签：爬虫

原文链接：http://www.cnblogs.com/pzk7788/p/10530806.html

版权

(1) 网络爬虫由控制节点、爬虫节点、资源库组成；以搜索引擎或聚焦网络爬虫为例，先确定好要爬取的主题和要爬取的初始URL
(2) 控制节点调用爬虫节点对初始URL进行爬取，爬行过程中，会爬到一些新的URL，会根据主题过滤掉一些URL，然后把剩下的URL根据优先级添加到URL队列等待爬取
(3) 爬虫节点爬取到的数据会存放到资源库中，资源库对爬取到的资源进行分析并建立索引，当用户检索对应信息时，可以从索引中进行检索并呈现给用户

转载于:https://www.cnblogs.com/pzk7788/p/10530806.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30482181

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫的工作流程

(1) 网络爬虫由控制节点、爬虫节点、资源库组成；以搜索引擎或聚焦网络爬虫为例，先确定好要爬取的主题和要爬取的初始URL(2) 控制节点调用爬虫节点对初始URL进行爬取，爬行过程中，会爬到一些新的URL，会根据主题过滤掉一些URL，然后把剩下的URL根据优先级添加到URL队列等待爬取(3) 爬虫节点爬取到的数据会存放到资源库中，资源库对爬取到的资源进行分析并建立索引，当用户检索对应信息时，可以...
复制链接

扫一扫