上个月底29日的统计发现当天流量超过了2G(平时都是低于1G的):根据来源IP发现了蜘蛛,信息: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)
本月截至昨天的流量统计: QihooBot的流量排在第一,加号后面是蜘蛛robots.txt的请求次数
QihooBot 10035 3.58 G字节 2007年 一月 03日 23:58
Yahoo! Slurp China 4586+33 8.41 M字节 2007年 一月 03日 23:59
Googlebot 4165+21 19.36 M字节 2007年 一月 03日 23:59
Sina Iask Spider 3544+1 16.18 M字节 2007年 一月 03日 15:46
MSNBot 3028+163 39.05 M字节 2007年 一月 03日 23:58
Nutch 2531+3 89.02 M字节 2007年 一月 03日 23:43
Yahoo Slurp 1879+341 9.50 M字节 2007年 一月 03日 23:59
发现Yahoo Slurp对于网站的请求越来越友好了,大量的请求都是304检查文件是否更新过;
很多spider都喜欢说自己是微软的IE,其实没有必要。
正确的robots样例:都是有spider的说明页信息的。
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
更规范一些: 加上操作系统的名称
Mozilla/5.0 (compatible; SpiderName; System Name; http://www.example.com/spider_help.html)
这样便于awstats统计系统无法来源客户端的统计操作系统比例,目前我的服务器上是超过10%没有操作系统信息的,基本上就是RSS阅读器和各种蜘蛛的流量。
2008-10-23更新:
Qihoobot最新的蜘蛛名是: "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; CollapsarDEEP)"
版权声明:可以转载,转载时请务必以超链接形式标明文章 流量统计:QihooBot来过 CollapsarDEEP 的原始出处和作者信息及 本版权声明。
http://www.chedong.com/blog/archives/001267.html