网络爬虫之Robots协议 1、Robots协议基本语法 2、Robots协议的使用及理解 Robots协议是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,该协议仅约定俗成,道德约束,无法律效益和实质性的安全意义,放在网页的根目录下。 存在该协议的原因请看下图所示: 1、Robots协议基本语法 # 注释, *代表所有, /代表根目录 User-agent: * Disallow