5条Linux命令分析搜索引擎蜘蛛的爬行行为

  百度和google是站长们的衣食父母,而做好搜索引擎优化的第一步就是蜘蛛的抓取,以下5条简单的Linux命令可以让你清楚的了解蜘蛛的爬行情况做到有的放矢。

  请首先看看日志文件的大小,如果特别大的话(比如:超过50MB)建议不要用这些命令分析,因为这些命令较消耗CPU,或者抓下来放到分析机上执行,以免影响网站的速度。如果是Dreamhost等共享主机的话,分析大日志很消耗CPU,进程很容易被Kill掉。

  这些命令都是Linux下的shell命令,在Windows主机下无法执行。

  一 百度蜘蛛爬行的次数

  cat access.log.2009-04-18 | grep Baiduspider+ | wc

 

 

  这代表百度蜘蛛一共爬行了173次

  二 百度蜘蛛的详细记录(如果记录很长不想看了可以Ctrl+C终止)

  cat access.log.2009-04-18 | grep Baiduspider+

  你也可以用如下命令:

  cat access.log.2009-04-18 | grep Baiduspider+ | tail -n 100

  cat access.log.2009-04-18 | grep Baiduspider+ | head -n 100

  只看最后100条或者最前100条

 

 

  三 百度蜘蛛抓取首页的详细记录

  cat access.log.2009-04-18 | grep Baiduspider+ | grep "GET / HTTP"

 

 

  初步研究发现,百度蜘蛛对首页非常热爱,24小时每小时都要看我的某个新站的首页,而googe和yahoo蜘蛛更喜欢内页,一天中各自只看了2次首页。不知道是真的有这个规律还是只是我的小站这样。

  四 Baidu蜘蛛派性记录时间点分布

  cat access.log.2009-04-18 | grep "Baiduspider+" | awk '{print $4}'

 

 

  五 Baidu蜘蛛爬行页面按次数降序列表

  cat access.log.2009-04-18 | grep "Baiduspider+" | awk '{print $7}' | sort | uniq -c | sort -r

 

 

  本文中的每条命令把Baiduspider+改成Googlebot都可以查看Google的对应的数据。

  附:(Mediapartners-Google)Google adsense蜘蛛的详细爬行记录

  cat access.log.2009-04-18 | grep Mediapartners

  Mediapartners-Google是什么?Google adsense广告之所以能与内容相关,就是因为每个包含着adsense的广告被访问后,几秒钟内就有一个Mediapartners-Google蜘 蛛来到这个页面,所以几分钟后再刷新就能显示相关性广告了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值