Robots
- 简介
robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,该协议仅约定俗成,道德约束,无法律效益和实质性的安全意义 - 举例
User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
可以看下百度自己的robots https://www.baidu.com/robots.txt
-
语法
User-agent: 描述搜索引擎robot的名字
Disallow: 描述不希望被访问到的一个URL
Allow: 描述希望被访问的一组URLDisAllow 和 Allow 之间的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL
-
工具
robots 生成工具 -
参考链接
https://baike.baidu.com/item/robots/5243374?fr=aladdin