利用自定义HEADER屏蔽搜索引擎

最新推荐文章于 2023-07-19 17:35:40 发布

mtawaken

最新推荐文章于 2023-07-19 17:35:40 发布

阅读量1k

点赞数

分类专栏： JAVA 文章标签：搜索引擎 header 百度 google 搜狗 blog

JAVA 专栏收录该内容

31 篇文章 0 订阅

订阅专栏

搜索引擎收录blog对有些人而言并非是件好事，例如我就不喜欢百度的爬虫扫我的站，带来毫无意义的访问和闲杂人等。对于使用 blogbus这样的BSP用户而言，自行定义robots.txt还没法实现，不过好在bus最近新推出了个自定义header的功能，我们可以利用meta 信息来屏蔽某些搜索引擎乃至全部

假如你想屏蔽所有搜索引擎的抓取的话，可以在自定义header里添加如下一句

<meta name="robots" content="noindex, nofollow" />

noindex 的作用是要求搜索引擎不索引你的网页，而nofollow 则是不跟随网页里出现的外部链接。例如你不希望你网页里的apple.com的链接被跟随从而间接的提高apple.com的pagerank或者说免费替它打广告，nofollow 的作用就显现了，事实上很多comment spam就是利用nofollow 以躲避搜索引擎将其网站视为作弊的处罚。

当然，如果我们只想屏蔽某些爬虫的话，只需要把meta 里的name 属性改成相应的爬虫名字，例如:

<meta name="baiduspider" content="noindex, nofollow" />

<meta name="sosospider" content="noindex, nofollow" />

<meta name="sogouspider" content="noindex, nofollow" />

这三句的话分别把百度，腾讯搜搜(实如其名，just so so)，搜狗的爬虫给屏蔽了

至于你想屏蔽更多的话，请google关键字"搜索引擎名字 robots.txt"

mtawaken

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
利用自定义HEADER屏蔽搜索引擎

<br />搜索引擎收录blog对有些人而言并非是件好事，例如我就不喜欢百度的爬虫扫我的站，带来毫无意义的访问和闲杂人等。对于使用blogbus这样的BSP用户而言，自行定义robots.txt还没法实现，不过好在bus最近新推出了个自定义header的功能，我们可以利用meta信息来屏蔽某些搜索引擎乃至全部<br />假如你想屏蔽所有搜索引擎的抓取的话，可以在自定义header里添加如下一句<meta name="robots" content="noindex, nofollow" /><br
复制链接

扫一扫