使用robots.txt文件控制对您网站的访问打印

最新推荐文章于 2023-11-26 22:40:58 发布

iteye_10631

最新推荐文章于 2023-11-26 22:40:58 发布

阅读量302

点赞数

分类专栏：软件工程文章标签：搜索引擎 Google Mobile ASP 网络应用

本文链接：https://blog.csdn.net/iteye_10631/article/details/81690803

版权

软件工程专栏收录该内容

11 篇文章 0 订阅

订阅专栏

第一部分:robots.txt基本介绍

robots.txt基本介绍

robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。

另外，robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

robots.txt写作语法

首先，我们来看一个robots.txt范例：http://www.seovip.cn/robots.txt

访问以上具体地址，我们可以看到robots.txt的具体内容如下：

# Robots.txt file from http://www.seovip.cn
# All robots will spider the domain

User-agent: *
Disallow:

以上文本表达的意思是允许所有的搜索机器人访问www.seovip.cn站点下的所有文件。

具体语法分析：其中#后面文字为说明信息；User-agent:后面为搜索机器人的名称，后面如果是*，则泛指所有的搜索机器人；Disallow:后面为不允许访问的文件目录。

下面，我将列举一些robots.txt的具体用法：

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 "/robots.txt" file

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分（下例中的01、02、03目录）

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某个搜索引擎的访问（下例中的BadBot）

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问（下例中的Crawler）

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

另外，我觉得有必要进行拓展说明，对robots meta进行一些介绍：

Robots META标签则主要是针对一个个具体的页面。和其他的META标签（如使用的语言、页面的描述、关键词等）一样，Robots META标签也是放在页面的＜head＞＜/head＞中，专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots META标签的写法：

Robots META标签中没有大小写之分，name=”Robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面；

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去；

Robots Meta标签的缺省值是INDEX和FOLLOW，只有inktomi除外，对于它，缺省值是INDEX,NOFOLLOW。

这样，一共有四种组合：

＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞
＜META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"＞
＜META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"＞
＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞

其中

＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞可以写成＜META NAME="ROBOTS" CONTENT="ALL"＞；

＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞可以写成＜META NAME="ROBOTS" CONTENT="NONE"＞

目前看来，绝大多数的搜索引擎机器人都遵守robots.txt的规则，而对于Robots META标签，目前支持的并不多，但是正在逐渐增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE还增加了一个指令“archive”，可以限制GOOGLE是否保留网页快照。例如：

＜META NAME="googlebot" CONTENT="index,follow,noarchive"＞

表示抓取该站点中页面并沿着页面中链接抓取，但是不在GOOLGE上保留该页面的网页快照。

第二部分:使用 robots.txt 文件控制对您网站的访问

创建自己的 robots.txt 文件后，请用 robots.txt 作为文件名将其保存到网站域名的根目录下。漫游器会在此位置对您的文件进行检查。如果您将文件保存在其他位置，漫游器便无法找到文件。

您也可以使用任何文本编辑器手动创建此 robots.txt 文件。该文件应为 ASCII 编码的文本文件，而非 HTML 文件。文件名应使用小写字母。

语法

最简单的 robots.txt 文件使用两条规则：

User-agent：应用下列规则的漫游器
Disallow：要拦截的网址

这两行会视为文件中的一个条目。您可根据需要包含任意多个条目。您可在一个条目中包含多个 Disallow 行和多个 User-agent。

User-agent 行中应列出什么内容？

User-agent 是一种特定的搜索引擎漫游器。网络漫游器数据库列出了许多常用的漫游器。您可以将某一条目设置为应用于特定漫游器（通过列示名称）或应用于所有漫游器（通过列示星号）。应用于所有漫游器的条目应与下列条目类似：

User-agent: *

Google 使用多种不同的漫游器 (user-agent)。用于网络搜索的漫游器是 Googlebot。 Googlebot-Mobile 和 Googlebot-Image 等其他漫游器也遵循您为 Googlebot 设置的规则，但您也可以为这些特定漫游器设置特定的规则。

Disallow 行中应列出什么内容？

Disallow 行列出的是您要拦截的网页。您可以列出某一具体网址或网址模式。条目应以正斜杠 (/) 开头。

要拦截整个网站，请使用正斜扛。
```
Disallow: /
```
要拦截目录及其中的所有内容，请在目录名后添加正斜杠。
```
Disallow: /junk-directory/ 
```
要拦截某个网页，请列出该网页。
```
Disallow: /private_file.html
```
要从 Google 图片搜索中删除特定图片，请添加如下内容：
```
User-agent: Googlebot-Image
Disallow: /images/狗.jpg 
```
要从 Google 图片搜索中删除网站上的所有图片：
```
User-agent: Googlebot-Image
Disallow: / 
```
要拦截某一特定文件类型的文件（例如 .gif），请使用以下内容：
```
User-agent: Googlebot
Disallow: /*.gif$
```
要在阻止网站页面被抓取的同时仍然在这些页面上显示 AdSense 广告，请禁止除 Mediapartners-Google 以外的所有漫游器。这样可使页面不出现在搜索结果中，同时又能让 Mediapartners-Google 漫游器分析页面，从而确定要展示的广告。 Mediapartners-Google 漫游器并不与其他 Google User-agent 共享网页。例如：
```
User-agent: *
Disallow: /folder1/

User-agent: Mediapartners-Google
Allow: /folder1/
```

请注意，指令区分大小写。例如， Disallow: /junk_file.asp 会拦截 http://www.example.com/junk_file.asp，但会允许 http://www.example.com/Junk_file.asp。

模式匹配

Googlebot（但不是所有搜索引擎）遵循某些模式匹配。

要匹配连续字符，请使用星号 (*)。例如，要拦截对所有以 private 开头的子目录的访问：
```
User-agent: Googlebot
Disallow: /private*/
```
要拦截对所有包含问号 (?) 的网址的访问（具体地说，这种网址以您的域名开头，后接任意字符串，然后是问号，而后又是任意字符串），可使用以下条目：
```
User-agent: Googlebot
Disallow: /*?
```
要指定与某个网址的结束字符相匹配，请使用 $。例如，要拦截以 .xls 结束的所有网址，请使用：
```
User-agent: Googlebot 
Disallow: /*.xls$
```
您可将此模式匹配与 Allow 指令配合使用。例如，如果 ? 代表一个会话 ID，您可能希望排除包含 ? 的所有网址，以便确保 Googlebot 不会抓取重复网页。但是以 ? 结束的网址可能是您希望包含的网页的版本。在此情况下，您可以对 robots.txt 文件进行如下设置：
```
User-agent: *
Allow: /*?$
Disallow: /*?
```
Disallow: / *? 指令将阻止包含 ? 的所有网址（具体而言，它将拦截所有以您的域名开头、后接任意字符串，然后是问号，而后又是任意字符串的网址）。

Allow: /*?$ 指令将包含以 ? 结束的所有网址（具体而言，它将允许包含所有以您的域名开头、后接任意字符串，然后是问号 (?)，问号之后没有任何字符的网址）。

第三部分:如何拦截或允许 Googlebot？

拦截 Googlebot
Google 使用多个 user-agent。您可以在条目的 User-Agent 行中包含漫游器名称来拦截对网页的访问。拦截 Googlebot 将会拦截所有以"Googlebot"开头的漫游器。

Googlebot：从我们的网站索引和新闻索引中抓取网页
Googlebot-Mobile：针对我们的移动索引抓取网页
Googlebot-Image：针对我们的图片索引抓取网页
Mediapartners-Google：抓取网页以确定 AdSense 的内容。您的网站上展示有 AdSense 广告的情况下，我们才会使用此漫游器来抓取您的网站。
Adsbot-Google：抓取网页来衡量 AdWords 目标网页的质量。只有在您使用 Google AdWords 为您的网站做广告的情况下，我们才会使用此漫游器。

例如，要完全拦截 Googlebot，您可以使用下列语法：

User-agent: Googlebot
Disallow: /

允许 Googlebot

如果您想拦截除了漫游器之外的所有访问，可以使用下列语法（请注意：如果您希望网站出现在其他搜索引擎的搜索结果中，如 MSN 和 Yahoo!，我们建议您不要进行此操作）：

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

Googlebot 会跟随指向它自己的行，而非指向所有漫游器的行。

"Allow"扩展名
Googlebot 可识别称为"Allow"的 robots.txt 标准扩展名。其他搜索引擎的漫游器可能无法识别此扩展名，因此在使用您感兴趣的其他搜索引擎时请确定其是否识别此扩展名。 "Allow"行的作用原理与"Disallow"行完全一样。只需列出您要允许的目录或页面即可。

您也可以同时使用"Disallow"和"Allow"。例如，要拦截子目录中某个页面之外的其他所有页面，可以使用下列条目：

User-agent: Googlebot
Disallow: /folder1/
Allow: /folder1/myfile.html

这些条目将拦截 folder1 目录内除 myfile.html 之外的所有页面。

如果您要拦截 Googlebot 并允许 Google 的另一个漫游器（如 Googlebot-Mobile），可使用"Allow"规则允许该漫游器的访问。例如：

User-agent: Googlebot
Disallow: /

User-agent: Googlebot-Mobile
Allow: /