最简单的开放写法
不作任何限制,Wordpress站内链接结构比较合理,作为一般博客,完全开放就可以了,代码:
User-agent: *
Disallow:
允许所有蜘蛛访问,允许访问所有内容。Wordpress只要模板中链接设计合理,没有需要限制的特殊内容,推荐使用这种写法。
前几天安装网站看到了sitemap网站图。其实在开始之前,我觉得很复杂。我做完之后,发现一点也不复杂。只要多查资料,网上有很多wordpress专家愿意分享自己的方法。
今天发现网站的根目录里没有robots.txt文件。有些程序会提供robots.txt文件,我准备自己修改。但是这次我用的是阿里云服务器,所以我要设置robots.txt文件,基本的编写方法和规则,所以我去百度了一下,找了一些好的资料分享给大家。
用Wordpress和robots.txt文件构建的博客是用来限制搜索引擎抓取某些目录和文件的。大致有以下几种方法。
最简单的严格写法:代码如下
User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=
允许所有蜘蛛访问,限制以" wp-"开头的目录和文件,限制。php文件,。inc文件,。js文件和。css文件,并限制搜索结果的抓取。
Disallow: /wp-*将限制对附件目录的搜索。如果您希望搜索引擎抓取附件,请删除第三行中的#注释。并非所有搜索引擎都支持Allow。
最合理的写法
这是最合理wordpress博客robots.txt的内容。
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: https://www.huizhanii.com/sitemap.xml
允许所有搜索引擎抓取,逐一列出需要限制的目录,限制搜索结果的抓取。
包括Sitemap.xml地址(这一项在viki中有具体描述,但Google管理员工具会提示‘检测到无效的Sitemap引用’,其有效性仍有争议)。
robots.txt的其他写法
为了避免搜索引擎中的重复页面,Wordpress玩家创造了许多机器人写作风格。下面是一些常用的,供参考(永久链接适用于伪静态风格):
Disallow: /page/
#限制抓取Wordpress分页
Disallow: /category/*/page/*
#限制抓取分类的分页
Disallow: /tag/
#限制抓取标签页面
Disallow: */trackback/
#限制抓取Trackback内容
Disallow: /category/*
#限制抓取所有分类列表
最后,推荐使用 Google管理员工具,登录后访问“工具 -> 分析 robots.txt”,检查文件有效性。
除非注明,否则均为汇站网原创文章,转载必须以链接形式标明本文链接