SEO之网站结构优化（六）_网站结构seo-CSDN博客

本文链接：https://blog.csdn.net/luckyboy0077/article/details/140702578

初创企业搭建网站的朋友看1号文章；想学习云计算，怎么入门看2号文章谢谢支持：
1、我给不会敲代码又想搭建网站的人建议
2、新手上云

6、禁止收录机制

有的时候，站长并不希望某些页面被抓取和收录，如付费内容、还在测试阶段的页面复制内容页面等。网站上不出现链接，或者使用JavaScript、Flash链接，使用nofollow 等方法都不能保证页面一定不被收录。站长自己虽然没有链接到不想被收录的页面，其他网站可能由于某种原因出现导入链接，导致页面被收录。
要确保页面不被收录，需要使用 robots 文件或Meta Robots标签。

1、robots文件
搜索引擎蜘蛛访问网站时，会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件，robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。如百度的robots文件位于:
http://www.baidu.com/robots.txt
只有在需要禁止抓取某些内容时，写robots.txt 才有意义。robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。有的服务器设置有问题，robots文件不存在时会返回200状态码及一些错误信息，而不是404状态码，这有可能使搜索引擎错误解读robots 文件信息，所以建议就算允许抓取所有内容，也要建一个空的robots.txt文件，放在根目录下。
robots 文件由记录组成，记录之间以空行分开。记录格式为:
<域>:<可选空格><域值><可选空格>
最简单的robots文件:
User-agent:*
Disallow:/
上面这个robots 文件禁止所有搜索引擎抓取任何内容。
**User-agent:**指定下面的规则适用于哪个蜘蛛。通配符*代表所有搜索引擎。只适用于
百度蜘蛛则用:
User-agent: Baiduspider
只适用于Google蜘蛛则用:
User-Agent: Googlebot

**Disallow:**告诉蜘蛛不要抓取某些文件或目录。例如下面的代码将阻止所有蜘蛛抓取/cgi-bin/和/tmp/两个目录下的内容及文件/aa/index.html:

User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow: /aa/index.html

Disallow:禁止的目录或文件必须分开写，每个一行，不能写成:
Disallow:/cgi-bin/ /tmp//aa/index.html
下面的指令相当于允许所有搜索引擎抓取任何内容:

User-agent:*
Disallow:

下面的代码禁止除百度外的所有搜索引擎抓取任何内容:

User-agent: Baiduspider
Disallow:

User-agent:*
Disallow: /

**Allow:**告诉蜘蛛应该抓取某些文件。由于不指定就是允许抓取，Allow:单独写没有意义，Allow 和 Disallow 配合使用，可以告诉蜘蛛某个目录下大部分不允许抓取，只允许抓取一部分。例如，下面的代码将使蜘蛛不抓取/ab/目录下其他目录和文件，但允许抓取其中/cd/目录下的内容;

User-agent:+
Disallow: /ab/
Allow: /ab/cd/

$通配符:匹配URL结尾的字符。例如，下面的代码将允许蜘蛛抓取以.htm为后缀的URL:

User-agent:*
Allow:.htm$

下面的代码将禁止百度抓取所有.jpg文件;

User-agent: Baiduspider
Disallow:.jpg$

*通配符:告诉蜘蛛匹配任意一段字符。例如，下面一段代码将禁止蜘蛛抓取所有htm.文件:

Disallow: /*.htm
User-agent:*

Sitemaps位置:告诉蜘蛛XML网站地图在哪里，格式为:
Sitemap:<网站地图位置>
主流搜索引擎都遵守robots 文件指令，robots.txt禁止抓取的文件搜索引擎将不访问，不抓取。但要注意的是，被robots 文件禁止抓取的URL还是可能出现在搜索结果中。只要有导入链接指向这个URL，搜索引擎就知道这个URL 的存在，虽然不会抓取页面内容，但是可能以下面几种形式显示在搜索结果中:

只显示URL，没有标题、描述。Google 常这样处理。
显示开放目录或雅虎等重要目录收录的标题和描述。
导入链接的锚文字显示为标题和描述。百度常这样处理。

要想使URL完全不出现在搜索结果中，需要使用页面上的meta robots标签。

2、meta robots 标签
meta robots 标签是页面 head部分 meta标签的一种，用于指令搜索引擎禁止索引本页内容。
最简单的meta robots标签格式为:

上面标签的意义是禁止所有搜索引擎索引本页面，禁止跟踪本页面上的链接。
Google、必应、雅虎都支持的meta robots 标签如下。

NOINDEX:告诉蜘蛛不要索引本页面。
NOFOLLOW:告诉蜘蛛不要跟踪本页面上的链接。
NOSNIPPET:告诉搜索引擎不要在搜索结果中显示说明文字。
NOARCHIVE:告诉搜索引擎不要显示快照。
NOODP:告诉搜索引擎不要使用开放目录中的标题和说明。

百度的官方说法是目前只支持NOFOLLOW和 NOARCHIVE.
meta robots 标签内容可以写在一起，以逗号间隔，中间可以有空格，也可以没有。多个meta robots内容也可以写成不同标签。

与下面这个是一样的:

meta robots标签不区分大小写。
只有禁止索引时，使用meta robots才有意义。以下这个标签:

是没有意义的，等于没写。普通需要被收录、索引，链接需要被跟踪的页面，不用写meta robots标签。
这个标签有时会用到:

效果是禁止索引本页面，但允许蜘蛛跟踪页面上的链接，也可以传递权重。
使用了noindex meta robots 标签的页面会被抓取，但不会被索引，页面URL不会出现在搜索结果中，这一点与robots 文件不同。

（未完待续。。。点击我的主页可翻看以前的文章）

图片来源网络