博客搜索引擎索引博文数量分析与评估

原创 2018年04月16日 18:45:12
 我一直希望能够通过一种手段统计出目前博客世界的一些情况,比如现在中文博文大约总数有多少。 比如中国的博客总数有多少,比如博客中的色情狂有多少等等严肃的学术问题。出于这个目的,着手进行 调查,本文主要探讨中文博文数量的总体估计以及各个博客搜索引擎的索引量的评估。

调查目的:目前各个博客搜索引擎索引博文数量范围。由此推出可能的中文博文数量; 调查方法:抽样调查法。我自己建立一个小的博客搜索引擎,索引博文5000条,然后 挑选高频,中频和低频的词汇作为查询词汇,看看5000篇文章包含多少相关 文章,然后再和目前博客搜索引擎返回的结果数量对比,由此推算出现有博客搜索引擎的索引量。
这5000篇相当于对博客世界进行抽样,由于词汇的分布在语料集合里面基本 符合Zipf分布,所以其在不同大小的语料集合的相对比例是满足Zipf分布。而其纵向比较基本能够估算出其索引数量的大小。
调查范围:自己的5000数据集;百度博客搜索;奇虎博客搜索;有道博客搜索;souyo博客搜索

示例:
这里给出部分查询的数据对比信息,真实的查询要大于给出的例子。其中, 横坐标代表查询词,比如“李湘”等代表提交给搜索引擎的查询词;纵坐标是搜索引擎;其中数据代表:有多少文章包含这个查询词,比如 第一个5代表我自己的5000数据中有5篇文章包含查询"李湘".


李湘 黄健翔 研究生 大学 李宇春

5000数据: 5 80 53 452 25

百度: 45000 103000 608000 905,000 168,000

奇虎: 34775 83886 456969 4,233,610 102,117

souyo: 1434 1581 10060 121149 3032

有道: 11600 30200 130100 107万 3万7800


估算结果:


1.平均来说,查询奇虎的返回结果大约是我的5000数据集合返回结果的1万倍左右。所以估计奇虎的索引量
大约是5000*1万=5000万条博文。
2. 百度:大约6000-7000万条
3.有道:大约2000倍左右,5000*2000=1000-1500万左右索引量
4. souyo: 大约200-300倍之间:5000*200=100万-2百万之间索引量



排序:百度》奇虎》有道》souyo

奇虎的索引量大约是百度的80%,有道大约是奇虎的30%,souyo大约是有道的10%-15%


百度一贯多报查询结果,比如“芭比机器”,返回显示结果1000条,实际上只有760条。所以适当给百度的数量缩水,其索引数量
应该和奇虎基本相当;也就是说,目前中文博文数量大约是5000万条左右。

 
 /*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/
博客搜索引擎索引博文数量分析与评估

CopyMiddle:张俊林
TimeStamp:2007/1/25

VC++消息映射的思考

 VC++消息映射的思考作者:郝庆欣在学习VC++的时候,大家都不可避免的用到消息映射。我们都知道C++是一种面向对象的编程语言,VC++中为什么这样来实现消息映射呢?  首先要明白一个包含了消息处理...
  • handj
  • handj
  • 2002-01-31 08:30:00
  • 834

这就是搜索引擎(一)—引擎架构、网络爬虫、索引建立

这个系列的文章是一只试图通过产品角度出发去理解复杂庞大搜索引擎的汪写出来的,不足之处很多,欢迎广大技术、非技术同学阅读后指正错误,我们一起探讨共同进步。 本篇主要介绍搜索引擎的架构、网络爬虫、及索引建...
  • youdianmuye
  • youdianmuye
  • 2016-08-03 18:20:30
  • 2326

怎样量化评估搜索引擎的结果质量

应InfoQ 张凯峰的邀请,写了篇《怎样量化评估搜索引擎的结果质量》对搜索引擎的评估体系、评估方法、常用评估指标进行了总结,供对此感兴趣的朋友们参考(陈运文) 原文链接如下:http://www.in...
  • cserchen
  • cserchen
  • 2011-06-13 11:30:00
  • 1638

搜索引擎索引之如何建立索引

3.4建立索引       正如前述章节所述,索引结构如果建立好了,可以增加搜索的速度,那么给定一个文档集合,索引是如何建立起来的呢?建立索引的方式有很多种,本节叙述比较实用的三种建立索引的方法。 ...
  • samjustin1
  • samjustin1
  • 2016-09-29 20:11:30
  • 1687

【搜索引擎】搜索引擎索引数据结构和算法

http://www.cnblogs.com/h-hq/p/5462884.html 最近一直在研究sphinx的工作机制,在[搜索引擎]Sphinx的介绍和原理探索简单地介绍了...
  • zdy0_2004
  • zdy0_2004
  • 2016-05-09 23:12:15
  • 1249

搜索引擎索引之索引基础

本文节选自《这就是搜索引擎:核心技术详解》第三章        本节通过引入简单实例,介绍与搜索引擎索引有关的一些基础概念,了解这些基础概念对于后续深入了解索引的工作机制非常重要。  ...
  • malefactor
  • malefactor
  • 2012-02-13 22:00:10
  • 11960

博文格式

问题及代码:   注释:   /* *Copyright (c) 2015,烟台大学计算机学院 *All rights reserved. *文件名称:test.cpp *作者:孙金艺 *完成日期:2...
  • sjy117496
  • sjy117496
  • 2015-05-11 17:03:20
  • 501

技术供应链安全——供应商范围的定义

在O-TTPS v1.0中对技术供应链安全提出了一系列针对技术供应商(提供信息技术产品)控制措施以保证技术供应链安全。 然而,在当前的全球市场中,技术供应商已不仅仅指O-TTPS v1.0 ...
  • lsyou_2000
  • lsyou_2000
  • 2013-10-29 16:17:11
  • 599

改变世界的9大算法--搜索引擎索引

搜索有两个主要阶段:匹配和排名。搜索引擎将二者组合成一个流程以实现一致性。但是这两个在概念上是独立的,我们假设在排名之前已经完成了匹配。 并且一个搜索引擎的生死由其排名的质量决定。 还是老规则,问题三...
  • L_rollback
  • L_rollback
  • 2016-10-09 09:45:24
  • 1630

搜狐搜索引擎

简要介绍       搜狐公司成立于1996年8月,是由公司创办人张朝阳博士在美国依靠MIT媒体实验室主任尼葛洛庞帝先生和美国风险投资专家爱德华·罗伯特先生的风险投资的支持下创办的。而后进一步得到包括...
  • Kangsheng
  • Kangsheng
  • 2005-03-22 11:41:00
  • 3320
收藏助手
不良信息举报
您举报文章:博客搜索引擎索引博文数量分析与评估
举报原因:
原因补充:

(最多只允许输入30个字)