1、什么叫做robots文件?
robots文件是网站与搜索引擎之间的沟通协议文件,我们可以通过这个文件告诉搜索引擎的蜘蛛,网站哪些链接是可以被抓取收录,哪些链接是不让抓取收录。
这个文件全称叫做robots.txt,这个文件文件名必须要叫做robots.txt,其次这个文件必须要小写。
这个robots.txt文件必须要放在网站的根目录,蜘蛛抓取你站点的时候首先就会读取这个文件,根据文件里面写的记录来抓取页面。
并不是所有的网站都有这个文件,如果没有这个文件,那么蜘蛛可以随意抓取你网站链接。
所以我们做seo的必须要给网站书写一个合理的robots文件现在织梦系统自带这个文件,基本全部是一样的,那么是不合理的,所以我们就需要单独重新来书写这个文件。
3、文件书写规则
User-agent:蜘蛛名称
User-agent:*
*是一个通配符代表了所有蜘蛛的名称
User-agent:baiduspider
但是我们就业的站点基本上全部使用*代替的
Disallow:/后面抓取的链接
User-agent:*
Disallow:/1.php
禁止所有的搜索引擎蜘蛛抓取网站这个1.php这个文件
Allow:/后面跟的是允许抓取的链接
100个页面链接20个不允许抓取,有80个是允许抓取
除了你写的禁止的文件,剩下的没写的表明默认允许被抓取
robots文件的具体写法
Disallow:/admin
代表的是禁止抓取admin这个目录。
Disallow:/a/*.htm
www.xxxx.com/a/1.html
www.xxxx.com/a/2.htm
第二个网址链接不能被正常抓取收录
这种写法方便网民以后需要禁止很多的相同格式的网页文件,我们直接使用*的通配符。
Disallow:/*?*
禁止抓取收录所有的带有?的网址链接(动态网址链接)
如果你的网站是动态站点,而且没有做伪静态的处理,那么这种写法不要使用。
会导致网站的动态链接不能被收录。
Disallow:/Show.asp?id=870
可以单独把某一个你要屏蔽的链接给写出来。
4、Disallow:/.jpg$
Disallow:/.png$
$是一个通配符,跟*是一样的,代表所有的意思
代表禁止抓取收录网站根目录里面所有以.jpg结尾的图片文件
www.xxxx.com/images/404.png
如果你不想你的站点的图片被搜索引擎引用的话,那么咱们可以直接把图片文件夹给屏蔽掉。
Disallow:/images
5、Disallow:/ab/abc.html
代表的是禁止抓取ab目录里面的abc这个网页文件
总结下:会写禁止的写法,那么允许的写法是原理是一样的,就是前面的记录不一样
Allow:/a/1.html
如果是单独的页面路径没必要单独的书写了,写允许记录一般是添加网站的站点地图文件。
Allow:/sitemap.htm
这个起到一个强调的作用
我们既然需要在robots文件添加这个站点地图,那么首先我们就需要自己给网站设置一个sitemap的页面出来。
5000篇文章内容链接
屏蔽某一条链接
汽车配件网 www.qipeiying.com
Disallow:/a/1.html
robots文件是网站与搜索引擎之间的沟通协议文件,我们可以通过这个文件告诉搜索引擎的蜘蛛,网站哪些链接是可以被抓取收录,哪些链接是不让抓取收录。
这个文件全称叫做robots.txt,这个文件文件名必须要叫做robots.txt,其次这个文件必须要小写。
这个robots.txt文件必须要放在网站的根目录,蜘蛛抓取你站点的时候首先就会读取这个文件,根据文件里面写的记录来抓取页面。
并不是所有的网站都有这个文件,如果没有这个文件,那么蜘蛛可以随意抓取你网站链接。
所以我们做seo的必须要给网站书写一个合理的robots文件现在织梦系统自带这个文件,基本全部是一样的,那么是不合理的,所以我们就需要单独重新来书写这个文件。
3、文件书写规则
User-agent:蜘蛛名称
User-agent:*
*是一个通配符代表了所有蜘蛛的名称
User-agent:baiduspider
但是我们就业的站点基本上全部使用*代替的
Disallow:/后面抓取的链接
User-agent:*
Disallow:/1.php
禁止所有的搜索引擎蜘蛛抓取网站这个1.php这个文件
Allow:/后面跟的是允许抓取的链接
100个页面链接20个不允许抓取,有80个是允许抓取
除了你写的禁止的文件,剩下的没写的表明默认允许被抓取
robots文件的具体写法
Disallow:/admin
代表的是禁止抓取admin这个目录。
Disallow:/a/*.htm
www.xxxx.com/a/1.html
www.xxxx.com/a/2.htm
第二个网址链接不能被正常抓取收录
这种写法方便网民以后需要禁止很多的相同格式的网页文件,我们直接使用*的通配符。
Disallow:/*?*
禁止抓取收录所有的带有?的网址链接(动态网址链接)
如果你的网站是动态站点,而且没有做伪静态的处理,那么这种写法不要使用。
会导致网站的动态链接不能被收录。
Disallow:/Show.asp?id=870
可以单独把某一个你要屏蔽的链接给写出来。
4、Disallow:/.jpg$
Disallow:/.png$
$是一个通配符,跟*是一样的,代表所有的意思
代表禁止抓取收录网站根目录里面所有以.jpg结尾的图片文件
www.xxxx.com/images/404.png
如果你不想你的站点的图片被搜索引擎引用的话,那么咱们可以直接把图片文件夹给屏蔽掉。
Disallow:/images
5、Disallow:/ab/abc.html
代表的是禁止抓取ab目录里面的abc这个网页文件
总结下:会写禁止的写法,那么允许的写法是原理是一样的,就是前面的记录不一样
Allow:/a/1.html
如果是单独的页面路径没必要单独的书写了,写允许记录一般是添加网站的站点地图文件。
Allow:/sitemap.htm
这个起到一个强调的作用
我们既然需要在robots文件添加这个站点地图,那么首先我们就需要自己给网站设置一个sitemap的页面出来。
5000篇文章内容链接
屏蔽某一条链接
汽车配件网 www.qipeiying.com
Disallow:/a/1.html