蜘蛛协议写法

最新推荐文章于 2024-06-24 22:24:36 发布

@David Liu

最新推荐文章于 2024-06-24 22:24:36 发布

阅读量1.1k

点赞数

分类专栏： Web 文章标签： web robots

本文链接：https://blog.csdn.net/u012842630/article/details/100857812

版权

Web 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。陈宝文提醒Robots文件名是不能改变的，文件必须放置在网站根目录才能生效，当搜索引擎来到网站第一个访问的页面就是 robots文件。

User—Agent：定义搜索引擎类型（定义robots对哪个搜索引擎生效）
User—Agent：BaiduSpider （定义该协议只对百度搜索引擎生效）

User—Agent：*（定义该协议协议对所有搜索引擎生效）
Disallow：定义搜索引擎禁止抓取收录地址
Disallow：/ （代表着整站禁止搜索引擎抓取，/代表着网站根目录），如果前期做了整站禁止搜索引擎抓取，后期蜘蛛将很长一段时间不会来网站进行抓取内容。

Disallow：/ data/ （代表着禁止蜘蛛抓取data目录后所有的页面）

Disallow：/d （代表着data文件后边的网页被屏蔽）
原因：/d和路径中出现的目录词是相匹配的的，所以都会被屏蔽掉

Disallow：/*？* 屏蔽所有动态路径（动态链接中存在着？符号匹配）

Disallow：/ *.js$ （屏蔽所有js文件）
Allow：定义允许抓取收录地址

Allow：/seojishu/ （代表着seojishu文件允许被抓取）
Disallow：/ a/ 导致全站会被屏蔽，因为Disallow：/后边出现空格，建议写完robots在百度站长工具中效验一下是否有误。

如：

https://mp.csdn.net/robots.txt

@David Liu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
蜘蛛协议写法

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（RobotsExclusionProtocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。陈宝文提醒Robots文件名是不能改变的，文件必须放置在网站根目录才能生效，当搜索引擎来到网站第一个访问的页面就是 robots文件。 User—Agent：定义搜索引擎类型（...
复制链接

扫一扫