robots.txt作用

最新推荐文章于 2023-06-10 00:01:05 发布

AsahiXiao

最新推荐文章于 2023-06-10 00:01:05 发布

阅读量1.1k

点赞数

分类专栏： SEO 文章标签：搜索引擎 url 服务器 file

本文链接：https://blog.csdn.net/AsahiXiao/article/details/5971109

版权

SEO 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

以http://www.qq.com/robots.txt为例的格式作为说明：

User-agent: *

Disallow:

Sitemap: http://www.qq.com/sitemap_index.xml

User-agent：后面为搜索机器人的名称，后面如果是*，则泛指所有的搜索机器人

Disallow：后面为不允许访问的文件目录

Sitemap：后面为网站地图文件,搜索机器人根据该文件的链接地址进行爬取网站文件。

具体举例说明：

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 "/robots.txt" file

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分（下例中的01、02、03目录）

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某个搜索引擎的访问（下例中的BadBot）

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问（下例中的Crawler）

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

例1. 禁止所有搜索引擎访问网站的任何部分　　下载该robots.txt文件	User-agent: 　　Disallow: /*
例2. 允许所有的robot访问　　(或者也可以建一个空文件 "/robots.txt")	User-agent: 　　Disallow:* 　　或者　　User-agent: 　　Allow: /*
例3. 仅禁止Baiduspider访问您的网站	User-agent: Baiduspider 　　Disallow: /
例4. 仅允许Baiduspider访问您的网站	User-agent: Baiduspider 　　Disallow: 　　User-agent: 　　Disallow: /*
例5. 禁止spider访问特定目录　　在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明，而不能写成 "Disallow: /cgi-bin/ /tmp/"。	User-agent: 　　Disallow: /cgi-bin/ 　　Disallow: /tmp/ 　　Disallow: /~joe/*
例6. 允许访问特定目录中的部分url	User-agent: 　　Allow: /cgi-bin/see 　　Allow: /tmp/hi 　　Allow: /~joe/look 　　Disallow: /cgi-bin/ 　　Disallow: /tmp/ 　　Disallow: /~joe/*
*例7. 使用""限制访问url** 　　禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。	User-agent: 　　Disallow: /cgi-bin/.htm
例8. 使用"$"限制访问url 　　仅允许访问以".htm"为后缀的URL。	User-agent: 　　Allow: .htm$ 　　Disallow: /*
例9. 禁止访问网站中所有的动态页面	User-agent: * 　　Disallow: /?
例10. 禁止Baiduspider抓取网站上所有图片　　仅允许抓取网页，禁止抓取任何图片。	User-agent: Baiduspider 　　Disallow: .jpg$ 　　Disallow: .jpeg$ 　　Disallow: .gif$ 　　Disallow: .png$ 　　Disallow: .bmp$
例11. 仅允许Baiduspider抓取网页和.gif格式图片　　允许抓取网页和gif格式图片，不允许抓取其他格式图片	User-agent: Baiduspider 　　Allow: .gif$ 　　Disallow: .jpg$ 　　Disallow: .jpeg$ 　　Disallow: .png$ 　　Disallow: .bmp$
例12. 仅禁止Baiduspider抓取.jpg格式图片	User-agent: Baiduspider 　　Disallow: .jpg$

AsahiXiao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
robots.txt作用

 robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。 以http://www.qq.com/robots.txt为例的格式作为说明： User-agent: * Disallow: Sitemap: http://www.qq.com/sitemap_index.xml User-agent：后面为搜索机器人的名称，后面如果是*，则泛指所有的搜索机器人<br
复制链接

扫一扫

专栏目录