中文搜索引擎技术揭密:系统架构(3)

  标引库的建立是数据索引中结构最复杂的一部分。一般需要建立两种标引:文档标引和关键词标引。文档标引分配每个网页一个唯一的docID号,根据docID标引出在这个网页中出现过多少过wordID,每个wordID出现的次数、位置、大小写格式等,形成docID对应wordID的数据列表;关键词标引其实是对文档标引的逆标引,根据wordID标引出这个词出现在那些网页(用wordID表示),出现在每个网页的次数、位置、大小写格式等,形成wordID对应docID的列表。

  关于索引数据的详细数据结构,有兴趣的朋友可以参看文献[4]。

  搜索的处理过程是对用户的搜索请求进行满足的过程,通过用户输入搜索关键字,搜索服务器对应关键词字典,把搜索关键词转化为wordID,然后在标引库中得到docID列表,对docID列表进行扫描和wordID的匹配,提取满足条件的网页,然后计算网页和关键词的相关度,根据相关度的数值返回前K篇结果(不同的搜索引擎每页的搜索结果数不同)返回给用户。如果用户查看的第二页或者第多少页,重新进行搜索,把排序结果中在第K+1到2*K的网页组织返回给用户。其处理流程如下图所示:

  搜索引擎细化趋势

  随着搜索引擎市场空间越来越大,搜索引擎也分得越来越细。互联网没有国界,百度总裁李彦宏所讲:搜索引擎市场是赢家通吃的市场。如果一个搜索引擎要想在搜索市场上有自己的一席之地,必须拥有自己的特色。而且,数以亿计的网民,搜索需求不可能都一样,不同类型的用户需要不同类型的搜索引擎,网页搜索只是搜索需求中的一种,这就决定了搜索引擎会不断细化,各具特色的搜索引擎也陆续出现。

  从技术上讲,各种搜索引擎都具有类似的系统架构,其不同在于搜索的数据源的不同。除了上面提到的网页搜索引擎以外,下面列举几个典型的搜索引擎:

  新闻搜索引擎

  看新闻是许多网民上网的主要目的,新闻搜索也就成了查看新闻的重要工具。新闻搜索引擎实现的过程比较简单,一般是扫描国内外有名的新闻网站,抓取新闻网页,建立自己的新闻数据库,然后提供搜索,只是对新闻网页抓取的频率要求很高,有的需要做到几分钟扫描一次。现在许多大型的网页搜索引擎都提供相应的新闻搜索功能,如:Google新闻搜索(http://news.google.com),中搜新闻搜索(http://news.zhongsou.com),百度新闻搜索(http://news.baidu.com)等。

  音乐搜索引擎

  有了互联网以后,音乐得到了广泛的传播,对于喜欢音乐的网民来说,音乐搜索引擎成了最钟爱的工具。音乐搜索引擎需要监控互联网上大型的音乐网站,抓取其音乐数据的描述信息,形成自己的数据库,音乐的下载和试听都会在其原来的音乐网站上进行。目前有:搜刮网(http://www.sougua.com),百度mp3搜索(http://mp3.baidu.com),1234567搜索(http://www.1234567.com)等。

  图像搜索引擎

  通过图像搜索引擎可以找到自己感兴趣的图片链接,各大搜索引擎也提供了图像搜索功能。图像文件本身不能够被搜索引擎索引,但搜索引擎可以通过链接文本分析和图片注解等得到图片的信息。目前有:Google图像搜索(http://images.google.com/),VisionNext搜索(http://www.eefind.com),百度图像搜索(http://images.baidu.com)等。

  商机搜索引擎

  电子商务一直是互联网的热点,商机搜索对电子商务的发展也起到了巨大的推动作用,商机搜索让互联网经济和传统经营紧密结合在一起,给传统的企业提供了一个新的销售模式。商机搜索引擎,通过抓取电子商务网站的商品信息和其他商业信息,给访问者提供统一的搜索平台。目前有:soaso价格搜索引擎(http://www.soaso.com),8848购物搜索(http://www.8848.com),阿里巴巴商机搜索(http://www.alibaba.com)等。

  其他特色的搜索引擎还有专利搜索、软件搜索、ftp搜索、游戏搜索、法律搜索等等,有兴趣的朋友可以参看文献[5]。

  更多参考:

  关于搜索引擎系统架构的知识可以参考文献[4][6][7]。以下的文献中有些只列出了文章的标题,大家可以在搜索引擎中输入标题进行搜索,可以直接得到下载链接。

  [1] 中文搜索引擎技术解密:网络蜘蛛。作者:Winter,2004。

  [2] 中文搜索引擎技术解密:排序技术。作者:Winter,2004。

  [3] 中文搜索引擎技术解密:分词技术。作者:Winter,2004。

  [4] The Anatomy of a Large-Scale Hypertextual Web Search Engine. Author: Sergey Brin and Lawrence Page, 1998.

  [5] 搜索引擎目录。作者:搜索引擎指南网。http://www.sowang.com/search.htm

  [6] WiseNut Search Engine white paper. Author: Wisenut Inc. 2001.

  [7] AltaVista white paper. Author: Altavista Inc. 1999

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值