话说robots.txt

  今天我们来说说robots.txt 的一些相关内容。了解一下什么是robots.txt,以及它的标签写法与设置,如何使用robots.txt 提交sitemap?

      1、robots.txt是什么?
      搜索引擎使用网络蜘蛛spider程序自动访问互联网上的网页并获取网页信息,而robots.txt是一个纯文本文件,用来告诉网络蜘蛛spider本站中哪些位置允许抓取,哪些位置不允许抓取。spider在访问一个网站时,会首先会检查该网站的根目录下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。
      通过设置robots.txt,可以阻止蜘蛛爬行站点内一些不希望被索引的页面,如网站后台、某些图片、某类文件或某个文件,甚至直接屏蔽掉某个搜索引擎,从而提高蜘蛛的工作效率,把大量精力都放到索引正常页面上去。

      2、怎么设置和放置robots.txt?
      建立robots.txt文件并放在网站根目录;如果域名指向到了次目录(如虚拟主机这种同一服务器下很多网站的),在次目录放置的robots.txt文件只对此域名有效。而且,文件名必须小写,如Robots.txt、roBots.txt、robots.TXT都是错误的。

      3、robots.txt应该怎么写?
      同时包含2个域,“User-agent:”和“Disallow:”,每条指令独立一行。
      (1)User-agent:指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”号,代表允许所有蜘蛛抓取。如:
       User-agent: Googlebot
       只允许Google的蜘蛛抓取;
       User-agent:*
      允许所有蜘蛛抓取。
      注意:User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理。
      (2)Disallow:指定禁止蜘蛛抓取的目录或文件,如:
      Disallo: /search.asp
      禁止抓取根目录下search.asp文件;
      Disallow: /admin/
      表示禁止抓取根目录下的admin子目录中任何内容;
      Disallow:
     值为空时,表示不限制,蜘蛛可以抓取站内任何内容。
     如果需要指定多个目录或文件,可以用多个“Disallow:文件或目录名”来指定,但必须每一项单独一行。

      4、robots.txt 需要注意的几个问题?
      robots.txt 文件中任意一行Disallow的值为空,其他指定的项都将失效,整站允许User-agent指定的蜘蛛抓取;robots.txt文件中允许使用注 释,以“#”开头的内容被认作注释;但注释最好独立成一行,尽量不要加在参数后面,如“Disallow: /admin/ #manage dir”,某些蜘蛛可能将注释当作值的一部分。尽量不要在一行的前面出现空格,如“ Disallow::/”,可能某些蜘蛛无法正确读取。
      推荐一个robots.txt检查工具:http://tool.motoricerca.info/robots-checker.phtml

      5、如何使用robots.txt 提交sitemap?

      seo站长们提交sitemap帮助蜘蛛爬取网站,成为了站长们必须做的一件事情,当然google和yahoo都有他们的管理网站的后台工具,那么对于没有这类工具的百度我们该怎么提交sitemap呢?这个问题其实一直困绕着我们很多站长,那么怎么才能实现这个功能呢?其实我们可以利用robots.txt来实现这个功能。在GG管理员工具里面GG给出了肯定答案,但是不提倡这样的方法,他们提倡使用管理员工具提交网站的sitemap,那么我们在写robots的时候应该怎么写才能完美的将蜘蛛引入,其实你在网上查看相关的技术性文章,他们给出的答案都是一样的。

      那么如何向百度提交sitemap呢? 最好的办法就是在robots.txt中写入网站sitemap地址。比如我的网站sitemap地址为:http://www.lujingjin.com/sitemap.xml

      那么在www.lujingjin.com/robots.txt中写入一段命令:Sitemap:http://www.lujingjin.com/sitemap.xml。 然后再向百度submit你的网站地址。这样网站被百度收录的速度将会有所提升。还有很多网站是不写robots.txt 的,学习一下它的命令吧。

      实际上对于google来说,提交sitemaps.xml可以使得网站的收录比较快而且全,但是百度没有sitemap的专门提交地址,因此大家往往忽视向百度提交sitemap的重要性。现在就可以学习一下了。

      文章转载请注明来自于绍兴seo陆晶锦博客,本文地址:http://www.lujingjin.com/jiaoliu/28.html ,欢迎加入seo交流群:142267729
本文来源于:陆晶锦seo博客 http://www.lujingjin.com/ , 原文地址:http://www.lujingjin.com/jiaoliu/28.html


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值