正确配置Robots.txt

最新推荐文章于 2024-06-05 10:48:30 发布

apache6

最新推荐文章于 2024-06-05 10:48:30 发布

阅读量3.9k

点赞数

分类专栏： apache2 服务器文章标签：搜索引擎数据库互联网文档 file 工作

本文链接：https://blog.csdn.net/apache6/article/details/2627903

版权

服务器同时被 2 个专栏收录

78 篇文章 0 订阅

订阅专栏

apache2

17 篇文章 0 订阅

订阅专栏

新站上线，最希望能够尽快被搜索引擎收录。

当然，我们并不希望搜索引擎收录网站中的任何页面。其中某些页面由于隐私、管理等等,并不希望被收录。

正确的配置网站的robots.txt非常重要，错误的配置会导致搜索引擎不能很好的收录甚至无法收录。

各个搜索引擎都有自己的搜索机器人(Robots)在为他们工作，这些Robots在网络上沿着网页上的链接（一般是http和src链接）不断抓取资料建立自己的数据库。

下面是一些搜索引擎的机器人名称：

机器人名称搜索引擎 Baiduspider http://www.baidu.com Googlebot http://www.google.com/ MSNBOT http://search.msn.com/ FAST-WebCrawler http://www.alltheweb.com/ ia_archiver http://www.alexa.com/ Scooter http://www.altavista.com/ Slurp http://www.inktomi.com

Robot.txt 简单的说，Robot.txt就是一个纯文本文档，里面包含一些命令，当Robots来网站时，就会首先检查该网站上是否有Robot.txt，若有，则一般会根据这些命令来执行；若无，则会自动抓取网页或网站。Robots.txt 文件应放于网站根目录下，并且该文件是可以通过互联网进行访问的。

下面看一个具体的实例(#后面的内容是为方便阅读而设)：

# robots.txt file start

# Exclude Files From All Robots:

User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /admin

# End robots.txt file

User-agent：用于描述搜索引擎蜘蛛的名字，在 Robots.txt 文件中，如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何搜索引擎蜘蛛均有效，在Robots.txt 文件中，"User-agent:*"这样的记录只能有一条。

Disallow：就表示不允许蜘蛛访问，你可以根据自己的需要设立后面的目录或者是文件。

Disallow: /images/：是指不允许搜索引擎蜘蛛抓取/images目录下的内容。

Disallow: /admin：是指/admin.html 和/admin/index.html都不允许搜索引擎蜘蛛抓取。

例一：通过"/robots.txt"禁止所有搜索引擎蜘蛛抓取"/cgi-bin/"目录，以及 "/tmp/"目录和 /test.html 文件，设置方法如下： User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /test.html

例二：通过"/robots.txt"只允许某个搜索引擎抓取，而禁止其他的搜索引擎抓取。如：只允许名为"slurp"的搜索引擎蜘蛛抓取，而拒绝其他的搜索引擎蜘蛛抓取 "/cgi-bin/" 目录下的内容，设置方法如下： User-agent: * Disallow: /cgi-bin/

User-agent: slurp Disallow:

apache6

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
正确配置Robots.txt

新站上线，最希望能够尽快被搜索引擎收录。当然，我们并不希望搜索引擎收录网站中的任何页面。其中某些页面由于隐私、管理等等,并不希望被收录。正确的配置网站的robots.txt非常重要，错误的配置会导致搜索引擎不能很好的收录甚至无法收录。各个搜索引擎都有自己的搜索机器人(Robots)在为他们工作，这些Robots在网络上沿着网页上的链接（一般是http和src链接）不断抓取资料建
复制链接

扫一扫

专栏目录