2.网络爬虫的“盗亦有道”
网络爬虫的尺寸:
小规模,数据量小; 爬取速度不敏感;Requests库 | 中规模,数据规模较大; 爬取速度敏感;Scrapy库 | 大规模,搜索引擎; 爬取速度关键;定制开发 |
---|---|---|
爬取网页 玩转网页 | 爬取网站 爬取系列网站 | 爬取全网 |
网络爬虫的“骚扰”:受限于编写水平和目的,网络爬虫将会为Web服务器带来巨大的资源开销。
网络爬虫的法律风险:服务器上的数据有产权归属;网络爬虫获取数据后牟利将带来法律风险。
网络爬虫泄露隐私:网络爬虫可能具备突破简单访问控制的能力,获得被保护数据从而泄露个人隐私。
网络爬虫的限制:
1.来源审查:判断User-Agent进行限制
检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问。
2.发布公告:Robots协议
告知所有爬虫网站的爬取策略,要求爬虫遵守。
Robots协议:Robots Exclusion Standard 网络爬虫排除标准
作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。
形式:在网站根目录下的robots.txt文件。
Robots协议的使用:
网络爬虫:自动或人工识别robots.txt,再进行内容爬取
约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但是存在法律风险
类人行为可不参考Robots协议,但不能用于商业用途。