robot协议的基础

搜索引擎Robots协议
搜索引擎Robots协议,是放置在网站根目录下robots.txt文本文件,在文件中可以设定搜索引擎蜘蛛爬行规则。设置搜索引擎蜘蛛Spider抓取内容规则。下面Seoer惜缘举例robots写法规则与含义:
首先要创建一个robots.txt文本文件,放置网站的根目录下,下面就开始编辑设置Robots协议文件:

一、允许所有搜索引擎蜘蛛抓取所以目录文件,如果文件无内容,也表示允许所有的蜘蛛访问,设置代码如下:

User-agent: *
Disallow:

或者

User-agent: *
Allow: /

二、禁止某个搜索引擎蜘蛛抓取目录文件,设置代码如下:

User-agent: Msnbot
Disallow: /

例如想禁止MSN的蜘蛛抓取就设为,Msnbot代表MSN的蜘蛛,如果想禁止其他搜索引擎就更换蜘蛛名字即可,其他蜘蛛名字如下:
百度的蜘蛛:baiduspider
Google的蜘蛛: Googlebot
腾讯Soso:Sosospider
Yahoo的蜘蛛:Yahoo Slurp
Msn的蜘蛛:Msnbot
Altavista的蜘蛛:Scooter
Lycos的蜘蛛: Lycos_Spider_(T-Rex)

三、禁止某个目录被搜索引擎蜘蛛抓取,设置代码如下:
User-agent: *
Disallow: /目录名字1/
Disallow: /目录名字2/

Disallow: /目录名字3/

把目录名字改为你想要禁止的目录即可禁止搜索引擎蜘蛛抓取,目录名字未写表示可以被搜索引擎抓取。


四、禁止某个目录被某个搜索引擎蜘蛛抓取,设置代码如下:

User-agent: 搜索引擎蜘蛛名字
说明(上面有说明蜘蛛的名字)
Disallow: /目录名字/
说明(这里设定禁止蜘蛛抓取的目录名称)

例如,想禁目Msn蜘蛛抓取admin文件夹,可以设代码如下:
User-agent: Msnbot
Disallow: /admin/

五、设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,设置代码如下:

User-agent: *
Disallow: /*.htm
说明(其中“.htm”,表示禁止搜索引擎蜘蛛抓取所有“htm”为后缀的文件)

六、充许所有搜索引擎蜘蛛访问以某个扩展名为后缀的网页地址被抓取,设置代码如下:

User-agent: *
Allow: .htm$  说明(其中“.htm”,表示充许搜索引擎蜘蛛抓取所有“htm”为后缀的文件)


七、只充许某个搜索引擎蜘蛛抓取目录文件,设置代码如下:

User-agent: 搜索引擎蜘蛛名字
说明(上面有说明蜘蛛的名字)
Disallow:

SEO顾问: Seoer惜缘 原载网址: http://www.noseo.org.cn/
版权所有,转载时必须以链接形式注明作者和原载网址及本声明。

 

 

补充  GOOGLE现在可以利用工具生成自己的ROBOT..TXT文件

要想控制各搜索引擎的爬虫对你的网站的访问,你就得在网站的robots.txt文件里写明有关的规则。比如,你允许爬虫访问你的哪些目录,禁止爬虫访问哪些内容。Google自己也有爬虫即Googlebot,如果你有些目录不想让它访问但你又不熟悉robots.txt文件的编写,现在可以利用Google网站管理员工具新增的robots.txt文件生成器了。
进入控制台>工具>生成 robots.txt就可以看到有关选项:

 

 

<script src="http://www.cdsbfx.com/js/google.js" type="text/javascript"></script> <script src="http://pagead2.googlesyndication.com/pagead/show_ads.js" type="text/javascript"></script>
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值