网络爬虫的Robots协议

目前对网络爬虫的限制主要有两种方式:

1.来源审查:判断User-Agent(在请求头中的一个键值对)进行限制,通过该键值对可以判断发起网络请求的浏览器类型,网站维护人员可以根据这个进行请求限制.

2.发布公告:Robots协议

下面我们就主要讲一下Robots协议.

Robots协议的作用:网站告诉爬虫哪些网页可以爬取,哪些不行.

Robots协议的形式:在网站根目录下的robots.txt文件,

例如在浏览器的地址栏输入https://www.baidu.com/robots.txt就可看到百度的Robots协议,

下图就是协议中的一部分:


 

我们可以看到Robots协议主要由两个字段组成:

User-agent:*
Disallow:/

其中User-agent表示的是爬虫类型,Disallow表示的是不允许爬取的页面

* 表示所有,/ 表示根目录

 

需要注意的是Robots协议只是网站维护人员给爬虫看的不想让他们爬取的页面,没有强制性,至于爬虫遵不遵守就要看爬虫自己的了.

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值