robots文件的优化

1、什么叫做robots文件?

  robots文件是网站与搜索引擎之间的沟通协议文件,我们可以通过这个文件告诉搜索引擎的蜘蛛,网站哪些链接是可以被抓取收录,哪些链接是不让抓取收录。

  这个文件全称叫做robots.txt,这个文件文件名必须要叫做robots.txt,其次这个文件必须要小写。

  这个robots.txt文件必须要放在网站的根目录,蜘蛛抓取你站点的时候首先就会读取这个文件,根据文件里面写的记录来抓取页面。

  并不是所有的网站都有这个文件,如果没有这个文件,那么蜘蛛可以随意抓取你网站链接。

  所以我们做seo的必须要给网站书写一个合理的robots文件现在织梦系统自带这个文件,基本全部是一样的,那么是不合理的,所以我们就需要单独重新来书写这个文件。

  3、文件书写规则

  User-agent:蜘蛛名称

  User-agent:*

  *是一个通配符代表了所有蜘蛛的名称

  User-agent:baiduspider

  但是我们就业的站点基本上全部使用*代替的

  Disallow:/后面抓取的链接

  User-agent:*

  Disallow:/1.php

  禁止所有的搜索引擎蜘蛛抓取网站这个1.php这个文件

  Allow:/后面跟的是允许抓取的链接

  100个页面链接20个不允许抓取,有80个是允许抓取

  除了你写的禁止的文件,剩下的没写的表明默认允许被抓取

  robots文件的具体写法

  Disallow:/admin

  代表的是禁止抓取admin这个目录。

  Disallow:/a/*.htm

  www.xxxx.com/a/1.html

  www.xxxx.com/a/2.htm

  第二个网址链接不能被正常抓取收录

  这种写法方便网民以后需要禁止很多的相同格式的网页文件,我们直接使用*的通配符。

  Disallow:/*?*

  禁止抓取收录所有的带有?的网址链接(动态网址链接)

  如果你的网站是动态站点,而且没有做伪静态的处理,那么这种写法不要使用。

  会导致网站的动态链接不能被收录。

  Disallow:/Show.asp?id=870

  可以单独把某一个你要屏蔽的链接给写出来。

  4、Disallow:/.jpg$

  Disallow:/.png$

  $是一个通配符,跟*是一样的,代表所有的意思

  代表禁止抓取收录网站根目录里面所有以.jpg结尾的图片文件

  www.xxxx.com/images/404.png

  如果你不想你的站点的图片被搜索引擎引用的话,那么咱们可以直接把图片文件夹给屏蔽掉。

  Disallow:/images

  5、Disallow:/ab/abc.html

  代表的是禁止抓取ab目录里面的abc这个网页文件

  总结下:会写禁止的写法,那么允许的写法是原理是一样的,就是前面的记录不一样

  Allow:/a/1.html

  如果是单独的页面路径没必要单独的书写了,写允许记录一般是添加网站的站点地图文件。

  Allow:/sitemap.htm

  这个起到一个强调的作用

  我们既然需要在robots文件添加这个站点地图,那么首先我们就需要自己给网站设置一个sitemap的页面出来。

  5000篇文章内容链接

  屏蔽某一条链接

  汽车配件网 www.qipeiying.com

  Disallow:/a/1.html


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值