网络爬虫有两个任务:下载页面和发现URL。
1.从请求队列中取出URL,下载对应页面,解析页面,找到链接标签。
2.网络爬虫发现了没有遇到过的URL,将其加入请求队列。
网络爬虫使用礼貌策略(politeness policy):
网络爬虫不会在特定的网络服务器上一次抓取多个页面,在同一个网络服务器的两次请求之间,网络爬虫会等待一定时间。
管理员可以在网络服务器上保存robots.txt文件,来辅助或者限制搜索引擎抓取页面:
User-agent:标识一个网络爬虫或者一组网络爬虫,受到以下规则约束。
Allow及Disallow:规定哪些资源允许或者不允许user-agent爬取。
第二个命令块指出:允许FavoredCrawl

本文探讨了网络爬虫的两大核心任务:下载页面和发现URL。爬虫通过从请求队列中取出URL,下载并解析页面,寻找新的链接,不断发现未访问过的URL,将其加入到请求队列中,实现网页的遍历与信息抓取。
最低0.47元/天 解锁文章
1225

被折叠的 条评论
为什么被折叠?



