site:chedong.com crawled by

一年前做的一个小试验:车东[Blog^2]: 让搜索引擎Spider告诉你:什么时间,从哪里,用什么身份抓取了你的网站 今天这个试验又查了一遍:看看百度、Google、MSN、雅虎、搜狗、中搜、新浪这几家拥有自主后台网页引擎的在过去一年的发展。

site:chedong.com crawled by这个命令在各个引擎上几乎都是通用的。虽然显示出来的User Agent信息是各个搜索引擎蜘蛛团队的举手之劳:但从一些细节上还是能看到很多差异。

Google
车东Che, Dong - My Window, Your Bridge
联系方式|Contact]. Google Talk · 雅虎招聘 [My Bloginality is INTJ]. Alexa流量统计:, 2006-02-25 11:39 @66.249.64.15 Crawled by Googlebot/2.1 (+http://www.google.com/bot.html) show this page source · Send me a book.
www.chedong.com/ - 39k - 2006年2月24日 - 网页快照 - 类似网页

uniq - phpMan - [ 翻译此页 BETA ]
On Apache/1.3.34 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.2 Under GNU General Public License · 2006-02-18 11:16 @66.249.65.5 Crawled by Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) · Valid XHTML 1.0! ...
www.chedong.com/phpMan.php/man/uniq - 5k - 网页快照 - 类似网页

Google的蜘蛛版本没有变化,但是从不同网段来的有些有Mozilla/5.0前缀,有些则没有,页面摘要很均匀,还原/可读性较好。

百度
车东 Che, Dong - My Window, Your Bridge
by Fernada Viégas, Martin Wattenberg & myself. for all those infosthetically minded ...Crawled by Baiduspider+(+http://www.baidu.com/search/spider.htm) show this page sourceSend me ...
www.chedong.com/ 41K 2006-2-25 - 百度快照
蜘蛛很规范,但是从上下文摘要中:似乎对原文多滤掉了一些标点,从搜索结果看:所有英文内容都被滤掉了。抓取/更新很快

雅虎
车东 Che, Dong - My Window, Your ...
车东 Che, Dong - My Window, Your Bridge. Sat 25 February, 2006. 据说 ... 93 Crawled by Mozilla/5.0 (compatible; Yahoo! Slurp China ...
www.chedong.com - 42K - 2006年02月25日 - 网页快照 - 更多此站结果

Slurp China是从中国进行的抓取,site:命令参数被当成关键词标引,而摘要中的“上文”被截断太多,有些影响可读性,摘要/除重仍然是明显的问题;

MSN
#车东 Che, Dong - My Window, Your Bridge
My Bloginality is INTJ ] Alexa流量统计: 2006-02-24 15:18 @65.54.188.102 Crawled by msnbot/1.0 (+http://search.msn.com/msnbot.htm) show this page source
* www.chedong.com * Cached page * 2/24/2006
去年的试验时: MSNBot的版本号是0.3,今年是1.0 综合表现进步很快;

其他几个引擎:目前尚未看到遵循robots.txt协议

搜狗
车东 Che, Dong - My Window, Your Bridge
[联系方式|Contact] Alexa流量统计: 2006-02-06 14:27 @220.181.19.92 Crawled by sogou spider  . Ada's Blog 艾达思语 UrMap:台版GoogleMaps . Jan's Tech Blog Helen Zawodny: 1922 - 2006 ....
chedong.com/ - 47k - 2006-02-06 - 网页快照

sohu agent最近看不到了,已经改成了sogou agent,但是可能搜狗的链接提取环节提取却出了不少问题:
因为看到sogou踪迹的全部都是在error_log里:根据220.181.19.92这个IP的分析
error_log:[Fri Feb 17 09:37:24 2006] [error] [client 220.181.19.92] File does not exist: /home/apache/chedong.com/www/phpman.php
error_log:[Fri Feb 17 09:43:50 2006] [error] [client 220.181.19.92] File does not exist: /home/apache/chedong.com/www/tech/awstats.htm
error_log:[Fri Feb 17 10:06:42 2006] [error] [client 220.181.19.92] File does not exist: /home/apache/chedong.com/www/&lt:a href='http:/www.empirecn.net/program/php/' target=_blank&gt:php&lt:/a&gt:Man.&lt:a href='http:/www.empirecn.net/program/php/' target=_blank&gt:php&lt:/a&gt:
原来大量的404错误都是搜狗的蜘蛛带来的:
1 不正常将原始URL编程小写字母;
2 在页面url不规范的时候,没有纠错处理;

中搜
clear(1) - phpMan
...5) clear(1) Generated by $Id: phpMan.php,v 4.42 2005/02/10 11...06 @202.108.1.8 Crawled by User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)
www.chedong.com/phpMan.php/man/clear... 上的更多结果 2005-03-21 中搜快照
一如既往的仍然伪装成Windows 2000来抓取你的网页

新浪
mytime(2) - phpMan
GNU General Public License2005-08-15 02:57 @219.142.78.246 Crawled by Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.0;.NET CLR 1.1.432)...
www.chedong.com/phpMan.php/man/myti... 2005-08-15 - 网页快照 收藏此网页
去年7,8月份还是伪装成Windows 2000上的IE。

rndc(5) - phpMan
GNU General Public License2006-02-20 05:19 @219.142.78.87 Crawled by iaskspider...
www.chedong.com/phpMan.php/man/rndc/5/ 2005-12-11 - 网页快照 收藏此网页
12月份以后改成了IaskSpider

作者: 车东 发表于:2006-02-26 19:02 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及 本版权声明

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值