Robots 协议
Robots Rxclusion Standard : 网络爬虫排除标准。
作用: 网站告知网络爬虫哪些页面可以抓取,哪些不行。
形式:在网站根目录下的robots.txt文件。
查看某网站的Robots协议方法:
例子:京东的Robots协议:https://www.jd.com/robots.txt
注释:
- User-agent:表示哪些爬虫。
- *:表示所有。
- Disallow:表示不允许爬虫访问资源的目录。
- /:表示根目录。
如果一个网站不提供Robots协议,说明该网站允许所有爬虫无限次的爬取其内容。
Robots协议的使用
网络爬虫:自动或者人工识别robots.txt,再进行内容爬取。
约束性:Robots协议是建议但非约束性的,网络爬虫可以不遵守,但存在法律风险。
少量的访问可以不遵守robots协议,如:一天访问1次或者一小时访问1次。