[数据统计]:百度在调低索引库的容量
宇宙在膨胀,搜索引擎索引库也是---题记
如何监测搜索引擎索引库的膨胀率是我最近关心的一个问题。随着网络的深入应用,越来越多的资料被放到了网络上;搜索引擎会对公开的资料加以收录,建立索引并服务于广大的网民。对于搜索引擎来说,如何达到搜全,搜新,有用,准确的要求,在数据爆炸的时代不能不说是一个严峻的挑战。
据悉 百度在07年第一季度斥资 1.5亿打造数据中心 ,很显然现在百度正在不断加强基础设施,以面对互联网数据爆炸的时代。无独有偶,最近美国的北卡州政府为了吸引google把数据中心建在本州,竟然抛出了免税的橄榄枝。更有甚者把全球变暖和google庞大的数据中心联系起来。
我的前一篇“[数据统计] 搜索引擎索引库:百度大于雅虎中国 之一”,有很多否定意见的回复。不过我仍然坚持我的观点。因为对于搜索引擎来说,特别是对于上百万级的site:统计来说,能了解数字的趋势,比数字本身更重要。
回到本文的正题,如何监测搜索引擎索引库的膨胀率呢?很显然这又是一个不好回答的问题。这里面涉及到了太多的因素。
比如:搜索引擎是如何对待那些过时的数据呢?搜索引擎的排重是如何进行的呢?更重要的是我们可以通过那些指标来进行衡量?
我做了一个抽样调查:
数据来源:
1、Alexa Top100 的中文网站
2、Alexa Top100 的中文网站 在 3月份的 搜索引擎索引量 (来源见这里)
注:google最后3天的统计数据为0。(被google封了 :) )
可以看出 在3月份百度整体调低了索引库的容量,而google的基本保持稳定。