目前对网络爬虫的限制主要有两种方式:
1.来源审查:判断User-Agent(在请求头中的一个键值对)进行限制,通过该键值对可以判断发起网络请求的浏览器类型,网站维护人员可以根据这个进行请求限制.
2.发布公告:Robots协议
下面我们就主要讲一下Robots协议.
Robots协议的作用:网站告诉爬虫哪些网页可以爬取,哪些不行.
Robots协议的形式:在网站根目录下的robots.txt文件,
例如在浏览器的地址栏输入https://www.baidu.com/robots.txt就可看到百度的Robots协议,
下图就是协议中的一部分:
我们可以看到Robots协议主要由两个字段组成:
User-agent:*
Disallow:/
其中User-agent表示的是爬虫类型,Disallow表示的是不允许爬取的页面
* 表示所有,/ 表示根目录
需要注意的是Robots协议只是网站维护人员给爬虫看的不想让他们爬取的页面,没有强制性,至于爬虫遵不遵守就要看爬虫自己的了.