网络爬虫学习(1)

 网络爬虫

网络爬虫是一个自动提取网页的程序, 它为搜索引擎从 Web 上下载网页, 是搜索引擎的重要组成部分。通用网络爬虫从一个或若干初始网页的 URL开始, 获得初始网页上的 URL列表; 在抓取网页的过程中, 不断从当前页面上抽取新的 URL放入待爬行队列,直到满足系统的停止条件。

主题网络爬虫

主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的 URL队列中; 然后根据一定的搜索策略从队列中选择下一步要抓取的网页 URL,并重复上述过程, 直到达到系统的某一条件时停止。所有被网络爬虫抓取的网页将会被系统存储, 进行一定的分析、过滤, 并建立索引, 对于主题网络爬虫来说, 这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值