1.网络爬虫的分类:
(1)小规模,数据量小,爬取速度不敏感,用于爬取网页----使用Requests库实现(2)中规模,数据量大,爬取速度敏感,用于爬取网站----使用Scipy库(专门爬取网站)(3)大规模搜索引擎,爬取全网,爬取速度敏感,用于爬取全网----使用的库一般定制开发,不可使用第三方库2.网络爬虫的骚扰:(1)网络爬虫会为web服务器带来巨大的资源开销(2)服务器上的数据有产权归属,网络爬虫获取数据后牟利,将会带来法律风险(3)网络爬虫可带来隐私泄露的风险,网络爬虫具备突破简单访问控制的能力,获得被保护的数据,从而泄露个人隐私3.爬虫的限制:(1)来源审查:判断User-Agent进行限制,检查来访HTTP协议头的User-Agent域,只响应浏览器或友好的爬虫(2)发布公告:Robots协议4.Robots协议:网络爬虫排除标准形式:在网站根目录下的robots.txt,如https://www.baidu.com/robots.txt
User-Agent:* 表示允许所有用户爬取
disallow:哪些不能被爬取
若是robots.txt为空,则表示允许所有爬虫无限制爬取
网络爬虫可以自动或人工识别robots.txt,然后进行网页内容爬取,robots协议是建议但非约束性,可以不遵守,但有法律风险
常见的一些网页robots协议: