通过.htaccess文件屏蔽不良蜘蛛

一周前,笔者分享过一篇文章《seo诊断:透过Log日志找到网站死结》,并在最后附上了两条改善建议。由于客观条件所限,最后采用robots 屏蔽的方法。先一起来看看一周后的蜘蛛变化,三大主流蜘蛛总抓取量锐减,证明robots文件开始生效。从图上的访问次数、总停留时间和总抓取量看,有所进步但路还很远。
                  然而,从11号开始,网站LOG日志开始出现众多中文非主流蜘蛛访问,其中不乏知名俄罗斯搜索引擎蜘蛛Yandexbot,还有不明“飞行物”AhrefsBot & ezooms.bot。 按照思维中定型的屏蔽蜘蛛方法,本能地将以上所有蜘蛛(对中文网站seo而言,以上的蜘蛛就是垃圾蜘蛛)通过Robots.txt文件disallow 掉。本以为这样就算搞定了,但是今早打开最近3天的LOG日志一看,垃圾蜘蛛抓取更加频繁,凶猛,尤其以ezooms.bot为甚。
          一般来说,搜索引擎对待Robots.txt文件有个生效期,大概2-7天。但是ezooms.bot的迅猛发展,让我不得不怀疑他是个Robots协议违反者。
          今天要分享的就是如何通过.htaccess文件屏蔽不良蜘蛛。
          以下是14号的网站日志,导入到Excel进行筛选分析,发现在当天所有访问日志(包括真实用户和蜘蛛)中,竟然有多达342次访问记录。而尤以AhrefsBot & ezooms.bot居多。
          (注:此例输入“Bot”进行筛选;国外蜘蛛一般叫Bot,国内一般叫Spider)
                  Ezooms.bot究竟是何方神圣?于是通过百度去搜索相关的记录,但是很不理想,百度没有任何相关的记录。没办法,只能求助于谷歌,满篇幅都是英文,头大了,咬咬牙慢慢咀嚼吧。
          翻阅了七八篇国外有关ezooms.bot的博客文章,对该bot也没有一个明确的说法,有的认为是SEOMoz Bot,有的认为是个文章采集者,但是大家对它的评价都很不好,被描绘成诸如吸血鬼、水蛭等。截取一段外文评语:
                  从了解到的知识来看,ezooms.bot对爬行的网站没有任何的帮助,遂下定决心屏蔽之。由于ezooms.bot不遵守Robots.txt协议,又想起了通过htaccess文件屏蔽IP段的方法。国外的博文也多次提到此方法,
                  图上的IP段与网站记录的ezooms.bot爬行ip段基本吻合,应该是个方法。但是屏蔽整个ip段,可能会造成一定的误杀(毕竟并不能确认所有的 ip都是ezooms.bot)。有没有更稳妥的办法呢?还是翻阅资料,最后找到了通过.htaccess来解决的办法。规则如下:
          RewriteEngine on
          RewriteCond %{HTTP_USER_AGENT} ^Ezooms
          RewriteCond %{HTTP_USER_AGENT} ^Ezooms/1.0
          RewriteRule ^(.*)$ http://getlostbadbot/

          为什么这么写,网上翻翻更多关于Apache中 RewriteCond 规则参数介绍,我也是菜鸟正在学习中。

转自:http://www.seowhy.com/bbs/forum.php?mod=viewthread&tid=2945114

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值