1.使用Robots meta标签
使用robots meta标签,就可以从网站中以网页为基础排除基于HTML的内容。为了用meta来排除页面,只需简单地将以下代码插入到要排除的HTML文档的<head>节
<meta name="robots" content="noindex,nofollow" />
这就表明页面不能被索引,并且页面的链接不能被跟随。
2.robots.txt模式排除
meta标签有技术限制,必须对应用程序源代码修改,而且只能用HTML。
robots.txt是位于网站根目录下的文本文件,并符合robots.txt标准。3个基本概念:
(1)只能有一个robots.txt
(2)robots.txt应放在web站点的根目录下
(3)位于子目录下的robots.txt无效果
下面位于站点根文件夹下的robots.txt文件示例,不允许任何robots(*)访问站点的文件:
User-agent:*
Disallow:/
以下示例不允许任何以“/directory”开头的URL地址被Google索引(googlebot是谷歌的用户代理名):
User-agent:googlebot
Disallow:/directory
如果只希望directory文件夹下的内容被排除,/directory/
如果想要googlebot排除X,Y,Z,应该这样写:
User-agent:*
Disallow:X
Disallow:Y
User-agent:googlebot
Disallow:X
Disallow:Y
Disallow:Z
只允许google来检索站点:
User-agent:googlebot
Disallow:
User-agent:*
Disallow:/
3.实时生成robots.txt
web开发人员可以实时动态地程序化生成robots.txt文件。在.htaccess中包括以下规则,能够把robots.php映射成robots.txt,并使用脚本robots.php来生成后者。
.htaccess里的以下规则,将对robots.txt的请求重写到robots.php:
RewriteEngine On
RewriteRule ^robots.txt$ /robots.php
robots.php文件:
<?
header('Content-type:text/plain');
...
...
?>