never-online 's Tech Blog In CSDN

never online - Everlasting love for angela.

用户操作
[即时聊天] [发私信] [加为好友]
never-onlineID:BlueDestiny
154004次访问,排名502好友17人,关注者33
在京城
BlueDestiny的文章
原创 114 篇
翻译 0 篇
转载 8 篇
评论 224 篇
never-online的公告
Web:
www.never-online.net
Email:
BlueDestiny##126.com
QQ:
77091373
最近评论
kwlong2008:来看看朋友,最近过的怎么样?俺的空间是介绍网站制作网站建设的,有时间也常去一下我的空间谢谢,wow gold

When you play a game of the day, the list of friends in the game whether there are always a few names of black
wow power leveling<……
zyhomepage:支持一下
clicksun:如果要制作纯CSS+DIV的圆角方框图形,可以到这里直接在线制作,什么颜色都可以:http://corner.cha.la
C_SuperMe:可以好好学习一下啊!!
文章分类
收藏
相册
icon
JS & DHTML
Dhteumeuleu
Douglas Crockford
Webfx
常去之地
ASP.Net
MSDN英文
XML指南
XML的大本营
博客园
正则表达式
我的网站
我网站的Blog(RSS)
友情链接
KimSoft的blog(RSS)
存档
软件项目交易
订阅我的博客
XML聚合  FeedSky
订阅到鲜果
订阅到Google
订阅到抓虾
订阅到BlogLines
订阅到Yahoo
订阅到GouGou
订阅到飞鸽
订阅到Rojo
订阅到newsgator
订阅到netvibes

原创 用数据说话-google的spider和baidu的spider质的差别收藏

新一篇: 试考完了,有一些业余的时间了,所以打算做最后一个asp的作品了 | 旧一篇: 兰帕德、杰拉德、小小罗、李卡多...

用数据说话,IIS的日志过两天贴出来,看看google的spider和baidu的spider的差别在哪,今天先贴我blog统计中的日志。

用baidu的点这里http://www.baidu.com/s?tn=myie2dg&ie=gb2312&bs=ncc+%CD%B3%BC%C6&sr=&z=&cl=3&f=8&wd=site%3Ablog.never-online.net&ct=0
用google的点这里http://www.google.cn/search?hl=zh-CN&newwindow=1&q=site%3Ablog.never-online.net&btnG=%E6%90%9C%E7%B4%A2&meta=

之后看看这里日志的spider内容,百度无时无刻不在抓我的网页,但是用site:blog.never-online.net里,没有多少实质性的东西! [angry] ,我已经订着baidu的spider好几天了,天天如此,但它的spider实在太不中用了,如果说baidu的服务器索引没有刷新的话,这一点我也不相信,请仔细看看上面用baidu搜site:blog.never-online.net里的更新日期。

下面是其中的一点点spider的日志(站点统计中的获取agent),过两天把IIS的日志一查出来就能知道baidu的真面目了。

看来还是有必要说明差别的原因在哪里,上面的日志是两个小时的日志,也就是说是一天日志的的缩写。

两个小时中google的spider只来过了几次,baidu的spider次数我想也不用是数有多少次了,而从上面的站点的搜索里,而从spider爬的次数来说,按理说爬的次数多,搜索的页面应该更“精确”才对,看看用site:blog.never-online.net的时候baidu搜出来的是什么和google用site:blog.never-online.net的东西是什么就清楚了吧。

61.135.145.216 baiduspider
 2006-7-4 2:37:06
61.135.145.216 baiduspider
 2006-7-4 2:37:04
61.135.145.216 baiduspider
 2006-7-4 2:37:04
61.135.145.216 baiduspider
 2006-7-4 2:37:02
61.135.145.216 baiduspider
 2006-7-4 2:37:02
66.249.72.52 GoogleBot[Bot/Crawler]
 2006-7-4 1:32:55
66.249.72.38 GoogleBot[Bot/Crawler]
 2006-7-4 1:32:52
66.249.72.49 GoogleBot[Bot/Crawler]
 2006-7-4 1:32:50
66.249.72.49 GoogleBot[Bot/Crawler]
 2006-7-4 1:32:48
66.249.72.39 GoogleBot[Bot/Crawler]
 2006-7-4 1:32:44
61.135.145.216 baiduspider
 2006-7-4 1:22:35
61.135.145.216 baiduspider
 2006-7-4 1:22:35
61.135.145.216 baiduspider
 2006-7-4 1:22:33
61.135.145.216 baiduspider
 2006-7-4 1:22:32
61.135.145.216 baiduspider
 2006-7-4 1:22:30
61.135.145.216 baiduspider
 2006-7-4 1:22:30
61.135.145.216 baiduspider
 2006-7-4 1:19:15
61.135.145.216 baiduspider
 2006-7-4 1:19:13
61.135.145.216 baiduspider
 2006-7-4 1:19:12
61.135.145.216 baiduspider
 2006-7-4 1:19:11
61.135.145.216 baiduspider
 2006-7-4 1:19:10
61.135.145.216 baiduspider
 2006-7-4 1:19:04
61.135.145.216 baiduspider
 2006-7-4 1:19:02
61.135.145.216 baiduspider
 2006-7-4 1:19:01
61.135.145.216 baiduspider
 2006-7-4 1:19:00
61.135.145.216 baiduspider
 2006-7-4 1:18:58
61.135.145.216 baiduspider
 2006-7-4 1:18:57
61.135.145.216 baiduspider
 2006-7-4 1:18:54
61.135.145.216 baiduspider
 2006-7-4 1:18:52
61.135.145.216 baiduspider
 2006-7-4 1:18:49
61.135.145.216 baiduspider
 2006-7-4 1:18:48
61.135.145.216 baiduspider
 2006-7-4 1:15:36
61.135.145.216 baiduspider
 2006-7-4 1:15:34
61.135.145.216 baiduspider
 2006-7-4 1:15:32
61.135.145.216 baiduspider
 2006-7-4 1:15:31
61.135.145.216 baiduspider
 2006-7-4 1:15:30
61.135.145.216 baiduspider
 2006-7-4 1:15:29
61.135.145.216 baiduspider
 2006-7-4 1:15:24
61.135.145.216 baiduspider
 2006-7-4 1:15:24
61.135.145.216 baiduspider
 2006-7-4 1:15:23
61.135.145.216 baiduspider
 2006-7-4 1:15:22
61.135.145.216 baiduspider
 2006-7-4 1:15:20
61.135.145.216 baiduspider
 2006-7-4 1:15:18
61.135.145.216 baiduspider
 2006-7-4 1:15:14
61.135.145.216 baiduspider
 2006-7-4 1:15:12
61.135.145.216 baiduspider
 2006-7-4 1:15:09
61.135.145.216 baiduspider
 2006-7-4 1:15:08
61.135.145.216 baiduspider
 2006-7-4 1:15:07
61.135.145.216 baiduspider
 2006-7-4 1:15:06
61.135.145.216 baiduspider
 2006-7-4 1:15:01
61.135.145.216 baiduspider
 2006-7-4 1:13:21
61.135.145.216 baiduspider
 2006-7-4 1:12:37
61.135.145.216 baiduspider
 2006-7-4 1:04:00
61.135.145.216 baiduspider
 2006-7-4 0:58:22
61.135.145.216 baiduspider
 2006-7-4 0:58:16
61.135.145.216 baiduspider
 2006-7-4 0:57:02
61.135.145.216 baiduspider
 2006-7-4 0:54:58
61.135.145.216 baiduspider
 2006-7-4 0:52:04
61.135.145.216 baiduspider
 2006-7-4 0:51:47
61.135.145.216 baiduspider
 2006-7-4 0:50:08
61.135.145.216 baiduspider
 2006-7-4 0:42:42
66.249.72.35 GoogleBot[Bot/Crawler]
 2006-7-4 0:30:25
66.249.72.35 GoogleBot[Bot/Crawler]
 2006-7-4 0:30:24
66.249.72.38 GoogleBot[Bot/Crawler]
 2006-7-4 0:30:22
61.135.145.216 baiduspider
 2006-7-4 0:25:52
61.135.145.216 baiduspider
 2006-7-4 0:25:51
61.135.145.216 baiduspider
 2006-7-4 0:25:46
61.135.145.216 baiduspider
 2006-7-4 0:25:45
61.135.145.216 baiduspider
 2006-7-4 0:25:33
61.135.145.216 baiduspider
 2006-7-4 0:25:32
61.135.145.216 baiduspider
 2006-7-4 0:22:22
61.135.145.216 baiduspider
 2006-7-4 0:22:19
61.135.145.216 baiduspider
 2006-7-4 0:22:18
61.135.145.216 baiduspider
 2006-7-4 0:22:12
61.135.145.216 baiduspider
 2006-7-4 0:22:10
61.135.145.216 baiduspider
 2006-7-4 0:22:10
61.135.145.216 baiduspider
 2006-7-4 0:22:09
61.135.145.216 baiduspider
 2006-7-4 0:22:03
61.135.145.216 baiduspider
 2006-7-4 0:22:02
61.135.145.216 baiduspider
 2006-7-4 0:22:00
61.135.145.216 baiduspider
 2006-7-4 0:22:00
61.135.145.216 baiduspider
 2006-7-4 0:21:59
61.135.145.216 baiduspider
 2006-7-4 0:21:58
61.135.145.216 baiduspider
 2006-7-4 0:21:54  

发表于 @ 2006年07月04日 02:55:00|评论(loading...)|编辑

新一篇: 试考完了,有一些业余的时间了,所以打算做最后一个asp的作品了 | 旧一篇: 兰帕德、杰拉德、小小罗、李卡多...

评论

#haoxiangni 发表于2006-07-04 08:47:00  IP: 60.176.140.*
差别的原因怎么没有说呀
#flower.b 发表于2006-07-04 09:30:00  IP: 221.221.156.*
很明显这个“tn=myie2dg”不是百度的蜘蛛呀!~
#陈鱼 发表于2006-07-04 09:52:00  IP: 220.174.246.*
baidu还强?笑掉大牙罗,mp3的搜索是比google强,那是因为google不敢干这种违法的事。
你试试搜“福彩”,看看baidu的竞价是多么恶劣
#平常道 发表于2006-07-04 09:44:00  IP: 61.48.20.*
原理我不知道,不用的网站百度和google抓的是不一样的。不相信的话,你试试搜索一下blogbus的博客,绝对是百度比google要强。各有各的好,不要在这里以偏概全了
#andrew 发表于2006-07-04 10:40:00  IP: 218.14.90.*
我不喜欢BAIDU
#缃戣 发表于2006-07-04 11:07:00  IP: 202.104.49.*
不知道在说什么
#BlueDestiny 发表于2006-07-04 12:26:00  IP: 219.159.87.*
谢谢兄弟们的回复
你的站点是静态页面应该对收录更有利一些,sogou的爬虫我不太了解。也许以后会有这方面的日志。

我并不是以想以这篇文章来说明baidu很差,的确,在本土化来说,baidu是比google人性化的。但它的spider抓个不停,只爬了一点无关紧要的页面,我想这本身也反映了google的spider的效率。至少在我blog里的dynamic page中是如此,静态页面我还没有测。
#progame 发表于2006-07-04 12:14:00  IP: 210.22.125.*
你用的LBS 你自己试试点击你的日历链接 看能翻多少次 如果sogou的爬虫过来 你的统计数就要飙升了
#progame 发表于2006-07-04 12:42:00  IP: 210.22.125.*
我不是指静态页面和动态页面对spider的影响 而是告诉你LBS的日历是有问题的 它会导致爬虫从1900年爬到2999年 可能还要更多
#progame 发表于2006-07-04 12:16:00  IP: 210.22.125.*
你们可以试试看:
http://www.baidu.com/s?lm=0&si=&rn=10&tn=myie2dg&ie=gb2312&ct=0&wd=site%3Aheybrain%2Ecom&pn=30&cl=3

http://www.google.cn/search?hl=zh-CN&newwindow=1&q=site%3Aheybrain.com&meta=
#progame 发表于2006-07-04 12:45:00  IP: 210.22.125.*
baidu抓得明显要次数多 而且不分时段地抓 google一般是凌晨才出现 但我觉得baidu和google都还好现在 不会影响到网站的访问 sogou的抓起来就是狂抓

baidu对索引的页面更新要比google及时些 现在就我的blog 从搜索引擎过来的链接 baidu和google对半开
#BlueDestiny 发表于2006-07-04 12:47:00  IP: 219.159.87.*
@progame
啊?多谢指点。那我今天要仔细的看看lbs的日历代码了,
http://www.heybrain.com/
这个是你的站点吧,有空多交流,谢谢你提供这个信息给我,非常感谢:D
#progame 发表于2006-07-04 12:47:00  IP: 210.22.125.*
还有lbs的统计是根据session 来的 所以你还是看IIS日志更准确些 有可能google的一个session抓很多个页面也说不定 虽然我喜欢google 但就中文站点而言 除去竞价排名 baidu确实比google好一些 当然就排序结果 还是google要好
#QQ: 99923309 发表于2006-07-04 12:48:00  IP: 222.67.89.*
不知所云, 完全有误导的嫌疑!
蜘蛛根本不是主要因素!
我的蜘蛛一天可以抓 6~8G网页.

但是你抓的快有个屁用,主要还是要看索引的效率!

QQ: 99923309
#BlueDestiny 发表于2006-07-04 12:50:00  IP: 219.159.87.*
我记得Yahoo的Search Engine也是狂抓(以前做站点的时候是这样,所以我不敢提交到Yahoo收录),还有一个engine也是要注意的,就是海量的引擎(这里不是攻击它)车东这里有篇文章可以看一下。http://www.chedong.com/blog/archives/001137.html
#progame 发表于2006-07-04 12:58:00  IP: 210.22.125.*
用url检查工具分析你的站点 是否有死链 是否有无意义的无穷链接 这点很重要

LBS的日历就是无意义的无穷链接 会导致spider一直爬下去 然后你就发现你的统计量一直在飙升

现在很多blog有这个问题
#progame 发表于2006-07-04 12:52:00  IP: 210.22.125.*
我用了urlrewrite 如果哪个spider狂抓一气 对不起 直接给ban掉
#BlueDestiny 发表于2006-07-04 13:11:00  IP: 219.159.87.*
@progame:嗯,多谢你了,这两天我一定会排查一下这些问题,很高兴认识你呀:D
------------------
另关于QQ: 99923309
本来不想再写了的,但还是想把这些实际情况也写一下,给大家也清楚我写本文的想法。
你的spider抓得快也没有用,就算你一天抓10G都没有用,不要像hl_spider一样搞得别人的站点像中了DDOS的一样,至少要我们这些平民的或者说是服务器商每天为这些事而烦恼。当然我的确同意看的是效率。而我这上面举的例子,也就是说baidu和google的效率吧。
#ideawu 发表于2006-07-04 21:51:00  IP: 222.26.216.*
所以我把blog的日历去掉了。我使用bo-blog
#sprit.moon 发表于2006-07-05 03:55:00  IP: 219.236.143.*
索引效率高又有屁用, 搜出来的东西符合胃口才重要
发表评论  


当前用户设置只有注册用户才能发表评论。如果你没有登录,请点击登录
Csdn Blog version 3.1a
Copyright © never-online