日志分析之识别真假蜘蛛与处理办法

导读(日志分析是站长必须要做的事情,如果一个网站主或者seoer不对日志进行分析,那么他绝对不是一个合格的站长。日志分析相关知识很多,我相信大部分站长对基础分析都会掌握,但是一些深入的日志分析问题可能或多或少有些迷茫!比如怎么识别真假蜘蛛以及处理方法!)
一,关于日志分析软件:

二,日志重点分析点

三,如何分分辨真假蜘蛛

四,如何处理假蜘蛛

日志分析工具很多,用处大致都相同 ,如果你想要直观化的分析可以选择一个比较容易理解的日志分析工具,比如拉格号在线分析工具等比较合适!

日志分析的重点在于:
1.蜘蛛来类(百度,360,谷歌等),2.抓取目录与页面(观察更新的页面是否被访问与抓取,爬取的目录等)3.蜘蛛访问次数与访问时间(访问频繁代表蜘蛛青睐此网站)4.网站安全与返回码(主要看是否被挂黑链,返回码一般200属于正常,但是如果404页面返回是200就得主要,还有其他500与302需要注意)5.文章权重(部分工具可以分析出访问蜘蛛的权重,权重蜘蛛访问则说明文章优质)。
对于如何分辨真假蜘蛛这里就详细的解答一下,方法很多比如:
1、在linux平台下,可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 .baidu.com 或 .baidu.jp 的格式命名。
2、在windows平台或者IBM OS/2平台下,可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以.baidu.com 或.baidu.jp的格式命名。
3、在mac os平台下,你可以使用dig 命令反解ip来判断是否来自百度spider的抓取。打开命令处理器,输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以.baidu.com 或.baidu.jp的格式命名。

然后我们把有疑问的蜘蛛ip记录下来

比如这个ip段的百度蜘蛛从访问的页面月状态码来看都不正常,所以我们就用上述的第二种方式查询!
操作步骤:打开电脑开始栏→输入cmd打开cmd.exe→使用nslookup ip查询

clipboard.png

我们可以通过查询有疑问的蜘蛛ip发现找不到!这种情况就是假蜘蛛。而一般真常情况的蜘蛛是下面这种显示baidu字样的!

clipboard.png

找到了假冒的蜘蛛那么到底这个假冒蜘蛛有什么危害呢?小编在网上查找答案没有找到相关权威的知识解答,于是去百度站长社区与反馈平台反馈得到的结果也不尽如意。于是就联络一些有过这种情况的站长,经过他们以往的经验来看,小编得出以下的结论!
1、占用网站带宽,导致网站流量上升,增加额外开销,
2、在有限带宽的前提下,阻碍了正常蜘蛛的抓取,误导了我们在对网站开展SEO工作时的思路,
3、部分伪装成假蜘蛛的采集工具剽窃了我们的工作
4..假冒蜘蛛不能抓取内容,不能形成建库收录,所以影响不是很大。
所以假冒蜘蛛存在着一些危害,但总的来说都在可控范围类,所以一旦发现假冒蜘蛛访问与抓取,可以暂时不用屏蔽,可以先观察百度站长的网站抓取是否正常,然后看具体的带来的危害,比如是否长时间出现此类假冒蜘蛛。观察一段时间后如果没问题就不用管,如果有影响就用robots协议屏蔽掉此ip段的假冒蜘蛛,不过需要注意的是在屏蔽的时候不要屏蔽错误。
本文由甲爪联盟原创供稿!原文链接:http://www.jiazhua.com/wz/467...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值