博客搜索引擎索引博文数量分析与评估

       /*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/                    
         博客搜索引擎索引博文数量分析与评估
        
               CopyMiddle:张俊林
               TimeStamp:2007/1/25                  
  
   我一直希望能够通过一种手段统计出目前博客世界的一些情况,比如现在中文博文大约总数有多少。  比如中国的博客总数有多少,比如博客中的色情狂有多少等等严肃的学术问题。出于这个目的,着手进行 调查,本文主要探讨中文博文数量的总体估计以及各个博客搜索引擎的索引量的评估。 
  
      调查目的:目前各个博客搜索引擎索引博文数量范围。由此推出可能的中文博文数量;   调查方法:抽样调查法。我自己建立一个小的博客搜索引擎,索引博文5000条,然后 挑选高频,中频和低频的词汇作为查询词汇,看看5000篇文章包含多少相关 文章,然后再和目前博客搜索引擎返回的结果数量对比,由此推算出现有博客搜索引擎的索引量。
                 这5000篇相当于对博客世界进行抽样,由于词汇的分布在语料集合里面基本 符合Zipf分布,所以其在不同大小的语料集合的相对比例是满足Zipf分布。而其纵向比较基本能够估算出其索引数量的大小。
       调查范围:自己的5000数据集;百度博客搜索;奇虎博客搜索;有道博客搜索;souyo博客搜索         
                
        示例:
             这里给出部分查询的数据对比信息,真实的查询要大于给出的例子。其中, 横坐标代表查询词,比如“李湘”等代表提交给搜索引擎的查询词;纵坐标是搜索引擎;其中数据代表:有多少文章包含这个查询词,比如  第一个5代表我自己的5000数据中有5篇文章包含查询"李湘".
            
            
                    李湘         黄健翔           研究生          大学            李宇春 
    
       5000数据:  5              80               53              452                  25
      
       百度:      45000          103000          608000       905,000      168,000
      
       奇虎:      34775          83886            456969      4,233,610    102,117
      
       souyo:      1434           1581             10060       121149       3032
      
       有道:       11600        30200            130100       107万         3万7800
      
   
    估算结果:
                                 
                      
        1.平均来说,查询奇虎的返回结果大约是我的5000数据集合返回结果的1万倍左右。所以估计奇虎的索引量
        大约是5000*1万=5000万条博文。
        2. 百度:大约6000-7000万条
        3.有道:大约2000倍左右,5000*2000=1000-1500万左右索引量
        4. souyo: 大约200-300倍之间:5000*200=100万-2百万之间索引量
        
        
    
     排序:百度》奇虎》有道》souyo
    
          奇虎的索引量大约是百度的80%,有道大约是奇虎的30%,souyo大约是有道的10%-15%
            
   
    百度一贯多报查询结果,比如“芭比机器”,返回显示结果1000条,实际上只有760条。所以适当给百度的数量缩水,其索引数量
    应该和奇虎基本相当;也就是说,目前中文博文数量大约是5000万条左右。
   
                           
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值