1、Robots协议:(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。(来源百度)。
2、Robots协议就是每个网站对于来到的爬虫所提出的要求。(并非强制要求遵守的协议,只是一种建议,但是如果不遵守有可能会承担法律责任。)
每个网站的Robots协议都在该网站的根目录下,例如百度的Robots协议的位置就是 https://www.baidu.com/robots.txt 等。
3、基本语法:
User-agent: 这里是爬虫的名字
Disallow: 该爬虫不允许访问的内容
其中 * 代表所有; / 代表根目录。