网络爬虫的尺寸
种类 | 尺寸 | 适用库 |
---|---|---|
爬取网页 玩转网页 | 小规模,数据量小,爬取速度不敏感 | request库 |
爬取网页 爬取系列网页 | 中规模,数据量较大,爬取速度敏感 | Scrapy |
爬取全网 | 大规模,搜索引擎,爬取速度关键 | 定制开发 |
网络爬虫引发的问题:
1.服务器性能骚扰问题:受限于便携水平和目的,网络爬虫将会为web服务器带来巨大的资源开销
2.内容层面法律风险:服务器上的数据有产权所有,网络爬虫获取数据后牟利将带来法律风险
3.个人隐私泄露风险:网络爬虫可能具备简单访问控制的能力,获得被保护数据从而泄露个人隐私
限制网络爬虫的方式
方式 | 说明 | 缺陷 |
---|---|---|
来源审查 | 判断User-Agent进行限制,检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问 | 对维护网站的人员技术能力要求较高 |
发布公告:Robots协议 | 告知所有爬取网站的爬取测量,要求爬虫遵守 | 约束力不强 |
Robots协议(Robots Exclusion Standard)
1.作用:网站告知网络爬虫哪些页面可以爬取,哪些不行