“盗”亦有道,关于robots协议

robots.txt

robots协议(全名为“网络爬虫排除标准”)(Robots Exclusion Protocol)网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

对于robots协议如何遵守,当前较为普遍的观点是:

对于小程序这样爬取量少的小型爬虫,可以无视robots协议。(我们编程爱好者知道这一点就足够了)

一般对于像搜索引擎这样,对全网进行爬取的大型爬虫,如果无视robots协议是有法律风险的。

robots协议一般位于网站的根目录之下,我们要查看某个网站的robots协议,可以在该网站的根目录的url后面加"/robots.txt"。

例如:(以下是几个知名网站的robots协议地址)

http://www.baidu.com/robots.txt

http://www.qq.com/robots.txt

http://www.sina.com/robots.txt

如果网站没有robots协议,就说明其默许任何爬虫对其网站信息进行爬取(这样也有好处,可以便于所有搜索引擎将你的网站上的信息提供给每一个人)

如何理解robots协议的内容?

我们访问一个含有robots协议的网页,

User-agent: 后面是所限制的爬虫的名称,如果是一个"*"号,则表示针对所有爬虫

而后面的Disallow则是限制的内容,"/"表示根目录

我们访问链家网的robots协议(如下):

 

User-agent:	Baiduspider
Allow:/

User-agent:	Googlebot
Allow:/

User-agent:	360Spider
Allow:/

User-agent:	haosouspider
Allow:/

User-agent:	bingbot
Allow:/

User-agent:	msnbot
Allow:/

User-agent:	msnbot-media
Allow:/

User-agent:	Sosospider
Allow:/

User-agent:	Sogou News Spider
Allow:/

User-agent:	Yahoo! Slurp China
Allow:/

User-agent:	Yahoo!
Allow:/

User-agent:	YoudaoBot
Allow:/

User-agent:	YodaoBot
Allow:/

User-agent:	Sogou News Spider
Allow:/

User-agent:	bingbot
Allow:/

User-agent:	YisouSpider
Allow:/

User-agent:	ia_archiver
Allow:/

User-agent:	EasouSpider
Allow:/

User-agent:	JikeSpider
Allow:/

User-agent:	EtaoSpider
Allow:/

User-agent:*
Disallow:/

什么意思呢?意思就是以上列举的爬虫是“友好爬虫”,链家网对这些爬虫允许其爬取所有资源,而对于非友好爬虫,则禁止其爬取任何资源(但是小程序除外,可以无视robots协议,只要不把数据用作商业用途即可)

 

转载于:https://www.cnblogs.com/Shiko/p/10827585.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值