搜索引擎优化-排除重复内容

1.使用Robots meta标签

使用robots meta标签,就可以从网站中以网页为基础排除基于HTML的内容。为了用meta来排除页面,只需简单地将以下代码插入到要排除的HTML文档的<head>节

<meta name="robots" content="noindex,nofollow" />

这就表明页面不能被索引,并且页面的链接不能被跟随。

2.robots.txt模式排除

meta标签有技术限制,必须对应用程序源代码修改,而且只能用HTML。

robots.txt是位于网站根目录下的文本文件,并符合robots.txt标准。3个基本概念:

(1)只能有一个robots.txt

(2)robots.txt应放在web站点的根目录下

(3)位于子目录下的robots.txt无效果

下面位于站点根文件夹下的robots.txt文件示例,不允许任何robots(*)访问站点的文件:

User-agent:*

Disallow:/

以下示例不允许任何以“/directory”开头的URL地址被Google索引(googlebot是谷歌的用户代理名):

User-agent:googlebot

Disallow:/directory

如果只希望directory文件夹下的内容被排除,/directory/

如果想要googlebot排除X,Y,Z,应该这样写:

User-agent:*

Disallow:X

Disallow:Y

User-agent:googlebot

Disallow:X

Disallow:Y

Disallow:Z

只允许google来检索站点:

User-agent:googlebot

Disallow:


User-agent:*

Disallow:/


3.实时生成robots.txt

web开发人员可以实时动态地程序化生成robots.txt文件。在.htaccess中包括以下规则,能够把robots.php映射成robots.txt,并使用脚本robots.php来生成后者。

.htaccess里的以下规则,将对robots.txt的请求重写到robots.php:

RewriteEngine On

RewriteRule ^robots.txt$ /robots.php

robots.php文件:

<?

header('Content-type:text/plain');

...

...

?>

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值