通过日志分析搜索引擎蜘蛛爬虫的行为

最新推荐文章于 2021-08-06 13:26:15 发布

chongshi3083

最新推荐文章于 2021-08-06 13:26:15 发布

阅读量534

点赞数

原文链接：https://my.oschina.net/taisha/blog/117440

版权

简要说明

做好百度和谷歌优化的第一步就是蜘蛛的抓取，下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。这里请首先看看日志大小，如果很大(超过50M)建议别用这些命令分析，因为这些命令很消耗CPU，或者抓下来放到分析机上执行，以免影响网站的速度。这些命令都是Linux下的shell命令，在/var/log/apache2/下面可以找到日志文件。access.log这个文件记录的应该是最近一天的日志情况。

命令

1. 查看百度蜘蛛爬行的次数

1	cat access.log \| grep Baiduspider \| wc

最左面的数值显示的就是爬行次数。
2. 百度蜘蛛的详细记录(Ctrl C可以终止)

1	cat access.log \| grep Baiduspider

也可以用下面的命令：

1 2	cat access.log \| grep Baiduspider \| tail -n10 cat access.log \| grep Baiduspider \| head -n10

只看最后10条或最前10条，这用就能知道这个日志文件的开始记录的时间和日期。
3. 百度蜘蛛抓取首页的详细记录

1	cat access.log \| grep Baiduspider \| grep “GET / HTTP”

百度蜘蛛好像对首页非常热爱每个钟头都来光顾，而谷歌和雅虎蜘蛛更喜欢内页。
4. 百度蜘蛛派性记录时间点分布

1	cat access.log \| grep “Baiduspider ” \| awk ‘{print $4}’

5. 百度蜘蛛爬行页面按次数降序列表

1	cat access.log \| grep “Baiduspider ” \| awk ‘{print $7}’ \| sort \| uniq -c \| sort -r

文中的Baiduspider 改成Googlebot都可以查看谷歌的数据，鉴于大陆的特殊性，大家应该对百度的log更为关注。
附：(Mediapartners-Google)Google adsense蜘蛛的详细爬行记录
cat access.log | grep Mediapartners
Mediapartners-Google是什么呢?Google adsense广告之所以能与内容相关，因为每个包含着adsense的广告被访问后，很快就有个Mediapartners-Google蜘蛛来到这个页面，所以几分钟后再刷新就能显示相关性广告了，真厉害啊！

转载于:https://my.oschina.net/taisha/blog/117440

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
通过日志分析搜索引擎蜘蛛爬虫的行为

简要说明做好百度和谷歌优化的第一步就是蜘蛛的抓取，下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。这里请首先看看日志大小，如果很大(超过50M)建议别用这些命令分析，因为这些命令很消耗CPU，或者抓下来放到分析机上执行，以免影响网站的速度。这些命令都是Linux下的shell命...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。