网络爬虫的尺寸
爬取网页:小规模、数据量小,爬取速度不敏感(requests库),使用率占据大于 90%
爬取网站:中规模,数据量较大,爬取速度敏感(scrapy库)
爬取全网:大规模,搜索引擎,爬取速度关键(定制开发)
网路爬虫的限制:
为什么有时要限制网络爬虫?
1、服务器上的数据有产权的归属,
2,、泄露隐私
限制的方法:
1、来源审查:检查来访的HTTP协议的User-Agent域,只响应浏览器的访问或者友好的爬虫
2、Robots协议,遵守爬虫协议
Robots协议举例