利用html标签限制搜索引擎对网站的抓取收录

最新推荐文章于 2024-01-28 15:19:58 发布

aili1947

最新推荐文章于 2024-01-28 15:19:58 发布

阅读量1.1k

点赞数

原文链接：http://www.cnblogs.com/wzzl/p/4970991.html

版权

有时有这样的需求，在网页未制作完成，或涉及隐私不能公布，而这时又不能阻止搜索引擎来抓取网页！

第一种方法：限制网页快照

限制所有的搜索引擎建立网页快照: <meta name="robots" content="noarchive">

限制百度的搜索引擎建立网页快照: <meta name="Baiduspider" content="noarchive">

第二种方法：禁止搜索引擎抓取本页面和搜索引擎引用页面

<meta name="robots" conrent="noindex,follow">

在这里，META NAME="ROBOTS" 是泛指所有的搜索引擎的，在这里我们也可以特指某个搜索引擎。

例如：META NAME="Googlebot"、META NAME="Baiduspide" 等。

content部分有四个命令：index、noindex、follow、nofollow，命令间以英文的“,”分隔。

INDEX命令：告诉搜索引擎抓取这个页面

FOLLOW命令：告诉搜索引擎可以从这个页面上找到链接，然后继续访问抓取下去。

NOINDEX命令：告诉搜索引擎不允许抓取这个页面

NOFOLLOW命令：告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。

根据以上的命令，就有了以下的四种组合：

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">：可以抓取本页，而且可以顺着本页继续索引别的链接；

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">：不许抓取本页，但是可以顺着本页抓取索引别的链接；

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">：可以抓取本页，但是不许顺着本页抓取索引别的链接；

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">：不许抓取本页，也不许顺着本页抓取索引别的链接。

通过robots.txt

所谓的robots.txt文件，是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件，robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件，搜索引擎就可以知道在你的网站中，哪些文件是可以被索引的，哪些文件是被拒绝索引的。

转载于:https://www.cnblogs.com/wzzl/p/4970991.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用html标签限制搜索引擎对网站的抓取收录

有时有这样的需求，在网页未制作完成，或涉及隐私不能公布，而这时又不能阻止搜索引擎来抓取网页！第一种方法：限制网页快照限制所有的搜索引擎建立网页快照: <meta name="robots" content="noarchive">限制百度的搜索引擎建立网页快照: <meta name="Baiduspider" content="noarchive">...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。