蜘蛛协议写法

 Robots协议(也 称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索 引擎哪些页面可以抓取,哪些页面不能抓取。陈宝文提醒Robots文件名是不能改变的,文件必须放置在网站根目录才能生效,当搜索引擎来到网站第一个访问的页面就是 robots文件。

 

  1. User—Agent: 定义搜索引擎类型(定义robots对哪个搜索引擎生效)

  2. User—Agent:BaiduSpider (定义该协议只对百度搜索引擎生效)

    User—Agent:*(定义该协议协议对所有搜索引擎生效)

  3. Disallow: 定义搜索引擎禁止抓取收录地址

  4. Disallow:/ (代表着整站禁止搜索引擎抓取,/代表着网站根目录),如果前期做了整站禁止搜索引擎抓取,后期蜘蛛将很长一段时间不会来网站进行抓取内容。

    Disallow:/ data/ (代表着禁止蜘蛛抓取data目录后所有的页面)

    Disallow:/d (代表着data文件后边的网页被屏蔽)

  5. 原因:/d和路径中出现的目录词是相匹配的的,所以都会被屏蔽掉

    Disallow:/*?*   屏蔽所有动态路径(动态链接中存在着?符号匹配)

    Disallow:/ *.js$  (屏蔽所有js文件)

  6. Allow: 定义允许抓取收录地址

    Allow:/seojishu/ (代表着seojishu文件允许被抓取)

  7. Disallow:/ a/   导致全站会被屏蔽,因为Disallow:/后边出现空格,建议写完robots在百度站长工具中效验一下是否有误。

如:

https://mp.csdn.net/robots.txt

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@David Liu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值