网络爬虫有两个任务:下载页面和发现URL。
1.从请求队列中取出URL,下载对应页面,解析页面,找到链接标签。
2.网络爬虫发现了没有遇到过的URL,将其加入请求队列。
网络爬虫使用礼貌策略(politeness policy):
网络爬虫不会在特定的网络服务器上一次抓取多个页面,在同一个网络服务器的两次请求之间,网络爬虫会等待一定时间。
管理员可以在网络服务器上保存robots.txt文件,来辅助或者限制搜索引擎抓取页面:
User-agent:标识一个网络爬虫或者一组网络爬虫,受到以下规则约束。
Allow及Disallow:规定哪些资源允许或者不允许user-agent爬取。