/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/
博客搜索引擎索引博文数量分析与评估
CopyMiddle:张俊林
TimeStamp:2007/1/25
我一直希望能够通过一种手段统计出目前博客世界的一些情况,比如现在中文博文大约总数有多少。 比如中国的博客总数有多少,比如博客中的色情狂有多少等等严肃的学术问题。出于这个目的,着手进行 调查,本文主要探讨中文博文数量的总体估计以及各个博客搜索引擎的索引量的评估。
调查目的:目前各个博客搜索引擎索引博文数量范围。由此推出可能的中文博文数量; 调查方法:抽样调查法。我自己建立一个小的博客搜索引擎,索引博文5000条,然后 挑选高频,中频和低频的词汇作为查询词汇,看看5000篇文章包含多少相关 文章,然后再和目前博客搜索引擎返回的结果数量对比,由此推算出现有博客搜索引擎的索引量。
这5000篇相当于对博客世界进行抽样,由于词汇的分布在语料集合里面基本 符合Zipf分布,所以其在不同大小的语料集合的相对比例是满足Zipf分布。而其纵向比较基本能够估算出其索引数量的大小。
调查范围:自己的5000数据集;百度博客搜索;奇虎博客搜索;有道博客搜索;souyo博客搜索
示例:
这里给出部分查询的数据对比信息,真实的查询要大于给出的例子。其中, 横坐标代表查询词,比如“李湘”等代表提交给搜索引擎的查询词;纵坐标是搜索引擎;其中数据代表:有多少文章包含这个查询词,比如 第一个5代表我自己的5000数据中有5篇文章包含查询"李湘".
李湘 黄健翔 研究生 大学 李宇春
5000数据: 5 80 53 452 25
百度: 45000 103000 608000 905,000 168,000
奇虎: 34775 83886 456969 4,233,610 102,117
souyo: 1434 1581 10060 121149 3032
有道: 11600 30200 130100 107万 3万7800
估算结果:
1.平均来说,查询奇虎的返回结果大约是我的5000数据集合返回结果的1万倍左右。所以估计奇虎的索引量
大约是5000*1万=5000万条博文。
2. 百度:大约6000-7000万条
3.有道:大约2000倍左右,5000*2000=1000-1500万左右索引量
4. souyo: 大约200-300倍之间:5000*200=100万-2百万之间索引量
排序:百度》奇虎》有道》souyo
奇虎的索引量大约是百度的80%,有道大约是奇虎的30%,souyo大约是有道的10%-15%
百度一贯多报查询结果,比如“芭比机器”,返回显示结果1000条,实际上只有760条。所以适当给百度的数量缩水,其索引数量
应该和奇虎基本相当;也就是说,目前中文博文数量大约是5000万条左右。
博客搜索引擎索引博文数量分析与评估
CopyMiddle:张俊林
TimeStamp:2007/1/25
我一直希望能够通过一种手段统计出目前博客世界的一些情况,比如现在中文博文大约总数有多少。 比如中国的博客总数有多少,比如博客中的色情狂有多少等等严肃的学术问题。出于这个目的,着手进行 调查,本文主要探讨中文博文数量的总体估计以及各个博客搜索引擎的索引量的评估。
调查目的:目前各个博客搜索引擎索引博文数量范围。由此推出可能的中文博文数量; 调查方法:抽样调查法。我自己建立一个小的博客搜索引擎,索引博文5000条,然后 挑选高频,中频和低频的词汇作为查询词汇,看看5000篇文章包含多少相关 文章,然后再和目前博客搜索引擎返回的结果数量对比,由此推算出现有博客搜索引擎的索引量。
这5000篇相当于对博客世界进行抽样,由于词汇的分布在语料集合里面基本 符合Zipf分布,所以其在不同大小的语料集合的相对比例是满足Zipf分布。而其纵向比较基本能够估算出其索引数量的大小。
调查范围:自己的5000数据集;百度博客搜索;奇虎博客搜索;有道博客搜索;souyo博客搜索
示例:
这里给出部分查询的数据对比信息,真实的查询要大于给出的例子。其中, 横坐标代表查询词,比如“李湘”等代表提交给搜索引擎的查询词;纵坐标是搜索引擎;其中数据代表:有多少文章包含这个查询词,比如 第一个5代表我自己的5000数据中有5篇文章包含查询"李湘".
李湘 黄健翔 研究生 大学 李宇春
5000数据: 5 80 53 452 25
百度: 45000 103000 608000 905,000 168,000
奇虎: 34775 83886 456969 4,233,610 102,117
souyo: 1434 1581 10060 121149 3032
有道: 11600 30200 130100 107万 3万7800
估算结果:
1.平均来说,查询奇虎的返回结果大约是我的5000数据集合返回结果的1万倍左右。所以估计奇虎的索引量
大约是5000*1万=5000万条博文。
2. 百度:大约6000-7000万条
3.有道:大约2000倍左右,5000*2000=1000-1500万左右索引量
4. souyo: 大约200-300倍之间:5000*200=100万-2百万之间索引量
排序:百度》奇虎》有道》souyo
奇虎的索引量大约是百度的80%,有道大约是奇虎的30%,souyo大约是有道的10%-15%
百度一贯多报查询结果,比如“芭比机器”,返回显示结果1000条,实际上只有760条。所以适当给百度的数量缩水,其索引数量
应该和奇虎基本相当;也就是说,目前中文博文数量大约是5000万条左右。