robots协议文件的几种写法及示例

最新推荐文章于 2025-02-07 14:43:59 发布

一只胡萝卜

最新推荐文章于 2025-02-07 14:43:59 发布

阅读量2k

点赞数

分类专栏： SEO学习文章标签： seo robots robots写法 user-agent nofollow

本文链接：https://blog.csdn.net/qq_36129701/article/details/104789902

版权

SEO学习专栏收录该内容

7 篇文章

订阅专栏

robots协议是放在网站根目录下的文本文件，告诉搜索引擎哪些内容是否可以被爬取；
robots协议的作用：
   1）引导搜索引擎蜘蛛爬取指定栏目或内容；
   2）网站改版或者url优化重写时屏蔽对搜索引擎不友好的链接；
   3）屏蔽死链、404错误页面；
   4）屏蔽无意义无内容的页面；
   5）屏蔽重复页；
   6）屏蔽不想被收录的页面；
   7）引导蜘蛛抓取网站地图；
   8）屏蔽网站中较大的文件，图片视频等节约宽带提升速度；

语法及通配符：
   1）User-agent: 定义搜索引擎；
   2）Disallow: 定义禁止蜘蛛爬取的页面或目录；
   3）Allow: 定义允许蜘蛛爬取的页面或目录；
   4）$ 匹配url结尾的字符；
   5）* 匹配0个或多个任意字符；

文件写法：
   1）User-agent: * 这里的代表所有的搜索引擎种类；（谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp）

   2）Disallow: /admin/ 禁止爬取admin目录下面的所有目录；

   3）Disallow: /admin 禁止爬取/admin.html、/adminset.html、/admin/abc.html；

   4）Disallow: /admin/.html 禁止爬取admin目录下的所有以html为后缀的文件（包括子目录）；

   5）Disallow: /? 禁止爬取网站中所有包含问号的网址；

   6）Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片；

   7）Disallow: /ab/abc.html 禁止爬取ab文件下的abc.html文件；

   8）Allow: /abc/ 允许爬取abc目录下的所有目录；

   9）Allow: /tmp 允许爬取tmp目录；

   10）Allow: .html$ 允许爬取网页以html为后缀的url；

   11）Allow: .gif$ 允许抓取网页中gif格式的图片；

   12）Sitemap: 网站地图告诉爬虫这个页面是网站地图；

示例：
1）User-agent: *
Disallow: /admin/
Disallow: /abc/
注：禁止所有的搜索引擎爬取admin和abc目录及子目录；

2）User-agent: *
Allow: /admin/seo/
Disallow: /admin/
注：禁止所有搜索引擎爬取admin目录及子目录，但可以爬取admin目录下的seo
目录；(Allow必须在前面，Disallow写在后)

3）User-agent: *
Disallow: /abc/.htm$
注：禁止所有搜索引擎爬取abc目录及子目录下以.htm为后缀的url；

4）User-agent: *
Disallow: /?*
注：禁止所有搜索引擎爬取有？的页面；

5）User-agent:Baiduspider
Disallow: /.jpg$
Disallow: /.jpeg$
Disallow: /gif$
Disallow: /png$
Disallow: /.bmp$
注：禁止所有搜索引擎爬取所有图片；

6）User-agent: *
Disallow: /folder1/
User-agent: Mediapartners-Google
Allow: /folder1/
注：禁止所有搜索引擎爬取folder1，但 Mediapartners-Google 漫游器可以在页
面上显示 AdSense 广告；

7）User-agent: *
Disallow: /abc*/
注：禁止所有搜索引擎爬取以abc开头的所有目录及子目录；

其他属性：
1）指定robot协议版本号：
Robot-version: Version 2.0
2）在指定时间段搜索引擎才可以爬取指定url
Visit-time: 0100-1300 允许在凌晨1点到3点之间访问
3）限制url读取频率
Request-rate: 40/1m 0800-1300 在8点到13点之间以每分钟40次的频率访问
Robots meta标签：

   <meta name="Robots" content="all|none|index|noindex|follow|nofollow">

属性说明：
1）all：文件将被检索，且页面上的链接可以被查询；默认为all；

2）none：文件不被检索，且页面上的链接也不可以被检索；

3）index：文件将被检索；

4）follow：页面上的链接可以被检索；

5）noindex：文件不被检索；

6）nofollow：页面上的链接不被检索；

组合运用：

	   1）可以抓取本页且可以顺着本页继续索引其他链接
	       <meta name="robots" content="index,follow">
	        也可以写成
	        <meta name="robots" content="all">
	        
	    2）不可以抓取本页但可以顺着本页继续索引其他链接
	      <meta name="robots" content="noindex,follow">
           
        3）可以抓取本页但不可以顺着本页继续索引其他链接
         <meta name="robots" content="index,nofollow">
            
        4）不可以抓取本页且不可以顺着本页继续索引其他链接
            <meta name="robots" content="noindex,nofollow">
            也可以写成
            <meta name="robots" content="none">