网络爬虫的robots协议

网络爬虫的尺寸

种类尺寸适用库
爬取网页 玩转网页小规模,数据量小,爬取速度不敏感request库
爬取网页 爬取系列网页中规模,数据量较大,爬取速度敏感Scrapy
爬取全网大规模,搜索引擎,爬取速度关键定制开发

网络爬虫引发的问题:
1.服务器性能骚扰问题:受限于便携水平和目的,网络爬虫将会为web服务器带来巨大的资源开销
2.内容层面法律风险:服务器上的数据有产权所有,网络爬虫获取数据后牟利将带来法律风险
3.个人隐私泄露风险:网络爬虫可能具备简单访问控制的能力,获得被保护数据从而泄露个人隐私

限制网络爬虫的方式

方式说明缺陷
来源审查判断User-Agent进行限制,检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问对维护网站的人员技术能力要求较高
发布公告:Robots协议告知所有爬取网站的爬取测量,要求爬虫遵守约束力不强

Robots协议(Robots Exclusion Standard)
1.作用:网站告知网络爬虫哪些页面可以爬取,哪些不行
2.基本语法:

#注释,*代表所有,/代表根目录
User-agent:*
Disallow:/

3.形式:在网站根目录下的robots.txt协议
4.遵守方式:
网络爬虫:自动或人工识别robots.txt,再进行内容爬取
约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险
5.对Robots协议的理解

尺寸是否需遵守
爬取网页 玩转网页访问量很小:可以遵守
访问量很大:建议遵守
爬取网站 爬取系列网站非商业且偶尔:建议遵守
商业利益:必须遵守
爬取全网必须遵守

如果写小程序,访问量很小,类似人类访问的话,可以不遵守robots协议

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值