SEO禁用蜘蛛(爬虫)搜索收录网页(全)

手段一:

Robots协议:用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。
spider在访问一个网站是,会首先检查该网站的根域下是否有一个叫做robots.txt的纯文本文件,这个文件用于指定spider在您网站上抓取范围。
一般屏蔽有:隐私资料,表结构
robots文件是存在于网站的根目录下,首先会检查http://www.123.com/robots.txt这个文件。
robots格式:
User-agent: (代表所有搜索引擎)
Disallow:(不允许抓取的相对路径)
allow:(允许抓取的相对路径或文件)
robots.txt生成器:https://robots.51240.com/

文件用法
例:

  1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

实例分析:淘宝网的 Robots.txt文件:访问www.taobao.com/robots.txt

User-agent: Baiduspider
 Allow: /article
 Allow: /oshtml 
Disallow: /product/ 
Disallow: / 

User-Agent: Googlebot 
Allow: /article 
Allow: /oshtml 
Allow: /product 
Allow: /spu 
Allow: /dianpu 
Allow: /oversea 
Allow: /list 
Disallow: /

 User-agent: Bingbot 
Allow: /article 
Allow: /oshtml 
Allow: /product 
Allow: /spu 
Allow: /dianpu 
Allow: /oversea 
Allow: /list 
Disallow: / 

User-Agent: 360Spider 
Allow: /article 
Allow: /oshtml 
Disallow: / 

User-Agent: Yisouspider 
Allow: /article 
Allow: /oshtml 
Disallow: / 

User-Agent: Sogouspider 
Allow: /article 
Allow: /oshtml 
Allow: /product 
Disallow: / 

User-Agent: Yahoo! Slurp 
Allow: /product 
Allow: /spu 
Allow: /dianpu 
Allow: /oversea 
Allow: /list 
Disallow: / 

User-Agent: * 
Disallow: /

做个例子,分析第一条:

User-agent: Baiduspider
Allow: /article 
Allow: /oshtml 
Disallow: /product/ 
Disallow: /

显然淘宝允许百度能访问根目录下的article,oshtml,不允许访问product目录根目录下其他的目录


手段二:

除了设置robots协议之外,还可以在网页代码里面设置。

在网页<head></head>之间加入<meta name="robots" content="noarchive">代码。表示紧致所有搜索引擎抓取网站和显示快照。

  • NOINDEX:告诉Google不要索引含此标签的网页。但根据实际经验,Google并非100%遵守。
  • NOFOLLOW:告诉Google不要关注含此标签的网页里的特定链接。这是为了解决链接spam而设计的Meta标签。
  • NOARCHIVE:告诉Google不要保存含此标签的网页的快照。
  • NOSNIPPET:告诉Google不要在搜索结果页的列表里显示含此标签的网站的描述语句,并且不要在列表里显示快照链接。

  如果要针对某一个搜索引擎禁止抓取,在网页<head></head>之间加入<meta name="baidspider" content="noarchive">代码,表示禁止百度抓取,<meta name="googlebot" content="noarchive">表示禁止谷歌抓取,其他的搜索引擎一样原理。

这样,一共有四种组合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

其中

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">

手段三:

拒绝网站的站内搜索功能是支持输入HTML代码或者UBB代码

例如:

SEO禁用蜘蛛(爬虫)搜索收录网页(全)

防护方式:

1.屏蔽搜索引擎收录站内搜索页,或者关闭站内搜索功能

2.不屏蔽站内搜索,那需要及时发现站内搜索数据是否异常,再设置敏感词词库过滤一些黑灰产业的关键词,以及站内搜索必须是纯文本形式。


手段四:

通过搜索引擎提供的站长工具,删除网页快照

网址:http://tousu.baidu.com/webmaster/add
SEO禁用蜘蛛(爬虫)搜索收录网页(全)

手段五:

配置nginx的配置文件,增加http_user_agent字段进行禁止网络爬虫,直接返回403

例子:

server { 

listen 80; 

server_name _ ; (域名或者默认服务器地址) 

#添加防止哪些爬虫,下面做例子

if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot") 

{ 

return 403; 

} 

或者

#新增location字段,并且匹配到了蜘蛛,则返回403

location = /robots.txt {     

if ($http_user_agent !~* "spider|bot|Python-urllib|pycurl")

{        return 403;    }

}

测试工具:http://s.tool.chinaz.com/tools/robot.aspx

注意:如果还是能够搜索到,是因为某搜索引擎不遵守robots协议约定,那么通过robots来禁止搜索是不够的。

转载于:https://blog.51cto.com/leoheng/2129526

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
早先年,驰骋网络,积累了很多源代码…… 互联网的基因、骨头里就是自由、分享,非常感谢没有墙的代,无限怀念,想想当的BBS,俱往矣~ 如今的互联网却在疯狂的过滤、筛选、删除,有了N多的墙…… 不知道说什么好,很多的资源因为商业利益的原因从如今臭名昭著的搜索引擎中被删除,恐怕是很担忧后起之秀…… 遗憾的是互联网不但是必须自由的,而且是创新的天地,前辈们结实的臂膀就是无私奉献给后来者攀登的,而决不是扼杀…… 最近看到网络上的商业争吵,很是气愤~!!! 于是就开始重新注意网络蜘蛛…… 很难过,网络上已经很难找到免费的、有价值的蜘蛛代码~ 每一个程序人(包括国外的)如果没有demo,又从何入手??? 可笑的人,可笑的世界,一个自由的网络被勒上了无形的缰绳,网络上哪些免费的、有价值的资源正被搜索引擎“淡”化,包括谷沟(早先一睹古够地图后就下了结论:互联网摧毁一切!),不是吗?看看世界的墙,从太极看:物极必反,自由的极端就是地狱、牢笼……任何东西都有互反的作用,美味的食物都带“毒”,但人们选择容忍、忽略,存在有不用付出代价的东西吗?! 我翻出我的布袋,把它们依然放回它们应该呆的地方,让更多的人们得到启发,开始创新之旅,期待您的精彩,感谢曾经自由的(不被看重)网络~~~ ------------------------------- 这个是完整的项目源代码,原汁原味,无需多舌~ 搞程序,必须e文过关,自己琢磨去吧~ 我们记住一点: 互联网上流转的都是数字,那些非数字的东西只是方便更多人使用,网络上“散布”的什么反向搜索等等只是一种愚笨的方法而已,实际上蜘蛛是根本不需要DNS、注册机构什么劳什子的,它只需要不知疲倦地啃噬不同国家地区的IP,并不是所有的IP都注册、登记哦~ 把不“规则”的物料抓回来,接着才是反向等方式的数据整理,蜘蛛织网、缝补都是需要间积累的,这些原始的东西才是人们真正感兴趣的东西,“归置、加工”后只是一种规则下的苟且或商业的需要罢了…… 所以这个蜘蛛只需要你给(小小更动)它喂食(IP库)~ 它就不知疲劳地四处,抓回的东西…… 怎么组织数据(库)才是搜索引擎的关键~!!! 抓回来就看你怎么折腾、运作了,可以肯定的是: 互联网需要的就是千奇百怪的、五花八门的搜索引擎~!!! 目前的数量远远不够,远远不够,这将是它的魅力,需要大家的智慧和义务劳动,在摧毁一切之前我们尽心营造和谐,呵呵~ ===================================== 忘记了…… 再来说下用途: 比如你在某网站,看到想看的图片,但要注册什么的看不到,还有其它资源~ 怎么办呢? 就用蜘蛛吧,把地址准确输入,它就自动给你出来…… 可以设定要抓取的文件类型,…… 比如图片什么的,征婚网站有很多mm图片,就是看不到,怎么办? 用爬虫吧,当然爬虫只能所有http资源,数据库中的就得用另法了,呵呵~
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值