php robot.txt,WordPress网站SEO优化——Robot.txt文件编写

一、robots 介绍

Robots 协议(也称为爬虫协议、机器人协议等)的全称是 “网络爬虫排除标准”(Robots Exclusion Protocol),网站通过 Robots 协议告诉来访网站的搜索引擎,此网站的哪些页面可以抓取,哪些页面不能抓取。

7add3afa447a3566f94127d25702d7e1.png

robots.txt 是搜索引擎来访网站时查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在 robots.txt 文件,如果存在,搜索蜘蛛就会按照该文件中声明的规则来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面和内容。

在 SEO 中,如果想要让搜索引擎搜索并收录你网站的内容,正确编写robots.txt 文件很重要。

robots.txt 文件通常存放在网站的根目录,但不排除有使用插件等技术将内容封装到数据库中的可能性。

二、robots 组成规则

robots 文件通常由:User-agent、Disallow、Allow、Sitemap 内容组成:

(1)User-agent 规则:

User-agent 用来指定搜索引擎蜘蛛,并限定其在网站上的行为。

User-agent:Baiduspider // 针对百度搜索蜘蛛

... // 该蜘蛛的行为限制规则

User-agent:googlebot // 针对谷歌搜索蜘蛛

... // 该蜘蛛的行为限制规则

User-agent: * // *表示全局变量,针对全体搜索引擎起作用

... // 所有蜘蛛通用的行为限制规则

常见的蜘蛛有

google蜘蛛: googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

altavista蜘蛛:scooter

lycos蜘蛛: lycosspider(t-rex)

alltheweb蜘蛛: fast-webcrawler/

inktomi蜘蛛: slurp

(2)Disallow 规则:

Disallow 关键词,用于定义 禁止 搜索引擎收录的地址。

Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。

Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。

(3)Allow 规则:

Allow 关键词,用于定义 允许 搜索引擎收录的地址。

(4)Sitemap 规则:

Sitemap 用来告诉搜索引擎网站地图的位置,其中 sitemap.xml 是你的网站的网站地图文件。

Sitemap: http://domain/sitemap.xml

三、设置演示

下面以设置所有蜘蛛爬取 WordPress 网站的行为为例。

1、编辑 robots.txt 文件

禁止所有蜘蛛爬取 Word Press 网站中重要的目录及文件:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/

Disallow: /wp-*.php

禁止搜索引擎抓取评论分页等相关链接:

Disallow: /*/comment-page-*

Disallow: /*?replytocom=*

禁止搜索引擎抓取站内搜索结果:

Disallow: /?s=*

Disallow: /*/?s=*

禁止搜索引擎抓取收录 feed 链接(feed 只用于订阅本站,与搜索引擎无关):

Disallow: /feed

Disallow: /*/feed

Disallow: /comments/feed

Disallow: /articles/*/feed

禁止蜘蛛爬取 WordPress 下的 readme.html ,licence.txt 和 wp-config-sample.php 文件,降低当前 WordPress 版本等信息对外泄露的风险:

Disallow: /readme.html

Disallow: /licence.txt

Disallow: /wp-config-sample.php

将 sitemap 相关文件添加到 robots.txt ,帮助搜索引擎快速爬取收录你的网站页面:

# 需根据网站实际情况填写。

Sitemap: http://yourdomain.com/sitemap.xml

Sitemap: http://yourdomain.com/post-sitemap.xml

Sitemap: http://yourdomain.com/page-sitemap.xml

Sitemap: http://yourdomain.com/author-sitemap.xml

Sitemap: http://yourdomain.com/offers-sitemap.xml

根据需求,将上述的有关规则按顺序汇总到一个名为 robots.txt 的文件内即可!

温馨提示:

1、上述的 robots.txt 内容仅供参考,请各位站长根据自己网站的实际情况编写内容。

2、如果你不喜欢手工编写指令,可以尝试使用在线robots生成工具:http://tool.chinaz.com/robots/ 。

2、上传 robots.txt 至网站

robots.txt 编辑完成后,将该文件上传至网站服务器,一般是存放在网站的根目录下。当然如果你在 robots.txt 中指定了文件的位置,则应该放置到对应的位置上。

3、测试 robots.txt 是否设置成功

喜欢 (2)or分享 (0)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值