WordPress网站的Robots协议应该怎么写

相信许多博主和Joe一样用的是Wordpress建站程序,Wordpress确实是一个非常强大的博客建设程序,前些天在网上了解到了一些Robots知识,接下来与大家分享一下Wordpress的Robots协议到底该怎么写才好?

我们先来了解一下什么是robots协议,Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。当然robots协议可以说是一个君子协议,前不久百度起诉360未经授权大量抓取百度内容,因为百度之前忍痛遵守robots协议没有抓取淘宝内容,自然对360这种真流氓行径表示愤怒哈。

下面Joe先说一下自己的robots的协议,如下:

User-agent: *
#开始配置 所有引擎

Disallow: /comments/feed/
#禁止所有引擎抓取网站comments目录下的feed目录

Disallow: /*/trackback
#禁止所有引擎抓取网站包含和的目录下的trackback目录(包含子目录)

Disallow: /wp-admin/
#禁止所有引擎抓取网站wp-admin目录

Disallow: /wp-includes/
#禁止所有引擎抓取网站wp-includes目录

Disallow: /wp-content/plugins/
#禁止所有引擎抓取网站wp-content目录下的plugins目录

Disallow: /wp-content/themes/
#禁止所有引擎抓取网站wp-content目录下的themes目录

Disallow: /*?replytocom=
#禁止所有引擎抓取网站所有参数以replytocom=开头的动态页面

Disallow: /*/comment-page-*
#禁止所有引擎抓取网站包含和的目录下的前缀为comment-page-并且包含的目录(包含子目录)

Disallow: /?r=*
#禁止所有引擎抓取网站以?开头的并且参数前缀为r=并且包含的动态页面

Disallow: /?p=*
#禁止所有引擎抓取网站以?开头的并且参数前缀为p=并且包含的动态页面

Disallow: /page/
#禁止所有引擎抓取网站page目录

Sitemap: http://www.jinliniuan.com/sitemap.xml
#Sitemap地址:http://www.jinliniuan.com/sitemap.xml

Sitemap: http://www.jinliniuan.com/sitemap_baidu.xml
#Sitemap地址:http://www.jinliniuan.com/sitemap_baidu.xml

 

当然,这份协议并不是最佳设置,这样的东西都是需要根据个人的习惯与差异进行一些修改的,一般来说个人配置都是一个协议允许所有爬虫(多多益善嘛),接着就开始部署不希望抓取的目录,最后就是指明自己的网站地图,Joe的是一个谷歌地图,最后是百度地图。

各位有兴趣也可以参考一下大网站或者一些名博的robots协议写法,为自己的网站设计一份合适的协议。robots查看方法:比如百度,直接在百度网址后面加上robots.txt,即http://www.baidu.com/robots.txt



无觅相关文章插件,快速提升流量

本文固定链接: http://www.jinliniuan.com/archives/377 | 金林苑

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值