一、robots 介绍
Robots 协议(也称为爬虫协议、机器人协议等)的全称是 “网络爬虫排除标准”(Robots Exclusion Protocol),网站通过 Robots 协议告诉来访网站的搜索引擎,此网站的哪些页面可以抓取,哪些页面不能抓取。
robots.txt 是搜索引擎来访网站时查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在 robots.txt 文件,如果存在,搜索蜘蛛就会按照该文件中声明的规则来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面和内容。
在 SEO 中,如果想要让搜索引擎搜索并收录你网站的内容,正确编写robots.txt 文件很重要。
robots.txt 文件通常存放在网站的根目录,但不排除有使用插件等技术将内容封装到数据库中的可能性。
二、robots 组成规则
robots 文件通常由:User-agent、Disallow、Allow、Sitemap 内容组成:
(1)User-agent 规则:
User-agent 用来指定搜索引擎蜘蛛,并限定其在网站上的行为。
User-agent:Baiduspider // 针对百度搜索蜘蛛
... // 该蜘蛛的行为限制规则
User-agent:googlebot // 针对谷歌搜索蜘蛛
... // 该蜘蛛的行为限制规则
User-agent: * // *表示全局变量,针对全体搜索引擎起作用
... // 所有蜘蛛通用的行为限制规则
常见的蜘蛛有
google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛: lycosspider(t-rex)
alltheweb蜘蛛: fast-webcrawler/
inktomi蜘蛛: slurp
(2)Disallow 规则:
Disallow 关键词,用于定义 禁止 搜索引擎收录的地址。
Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。
Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。
(3)Allow 规则:
Allow 关键词,用于定义 允许 搜索引擎收录的地址。
(4)Sitemap 规则:
Sitemap 用来告诉搜索引擎网站地图的位置,其中 sitemap.xml 是你的网站的网站地图文件。
Sitemap: http://domain/sitemap.xml
三、设置演示
下面以设置所有蜘蛛爬取 WordPress 网站的行为为例。
1、编辑 robots.txt 文件
禁止所有蜘蛛爬取 Word Press 网站中重要的目录及文件:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /wp-*.php
禁止搜索引擎抓取评论分页等相关链接:
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
禁止搜索引擎抓取站内搜索结果:
Disallow: /?s=*
Disallow: /*/?s=*
禁止搜索引擎抓取收录 feed 链接(feed 只用于订阅本站,与搜索引擎无关):
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /articles/*/feed
禁止蜘蛛爬取 WordPress 下的 readme.html ,licence.txt 和 wp-config-sample.php 文件,降低当前 WordPress 版本等信息对外泄露的风险:
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sample.php
将 sitemap 相关文件添加到 robots.txt ,帮助搜索引擎快速爬取收录你的网站页面:
# 需根据网站实际情况填写。
Sitemap: http://yourdomain.com/sitemap.xml
Sitemap: http://yourdomain.com/post-sitemap.xml
Sitemap: http://yourdomain.com/page-sitemap.xml
Sitemap: http://yourdomain.com/author-sitemap.xml
Sitemap: http://yourdomain.com/offers-sitemap.xml
根据需求,将上述的有关规则按顺序汇总到一个名为 robots.txt 的文件内即可!
温馨提示:
1、上述的 robots.txt 内容仅供参考,请各位站长根据自己网站的实际情况编写内容。
2、如果你不喜欢手工编写指令,可以尝试使用在线robots生成工具:http://tool.chinaz.com/robots/ 。
2、上传 robots.txt 至网站
robots.txt 编辑完成后,将该文件上传至网站服务器,一般是存放在网站的根目录下。当然如果你在 robots.txt 中指定了文件的位置,则应该放置到对应的位置上。
3、测试 robots.txt 是否设置成功
喜欢 (2)or分享 (0)