聊聊信息检索(一)——前言及信息检索概述


摘要:本文主要就信息检索的概念、体系结构及发展历史等进行一个简要的介绍。

前言

如果罗列当前网络上最流行的词汇,相信“搜索引擎”一定位列其中,Google、百度这样的明星企业用他们的技术改变着我们的生活,我们从来没有像今天这样能够如此方便、快捷的获取我们希望得到的信息。

记得第一系接触搜索引擎是一次偶然的机会,那天我们要在学校举行一个类似竞赛的活动,需要用到抢答器,但是由于说明书的丢失,我们不知道如何使用它。这是一个同学说:“上网查查”。我感到不可思议,这么偏门的一个产品,查得到吗?结果他用了不到5分钟就搞定了,从此Google这个新鲜的名词闯入了我的世界,不夸张地说,现在的我们对搜索引擎的依赖如同我们对手机、汽车的依赖一样,我们难以想象没有他们的日子里,我们是多么的不方便。

幸运的是,笔者不仅享受着搜索引擎提供给我的服务,也有机会能够学习到一些自然语言处理、信息检索之类的知识,当然,笔者只是初涉此领域,知之甚少,但是笔者愿意将自己所了解的一些关于信息检索方面的东西与大家分享,博客园高手甚多,希望能和大家一同学习、探讨。另外,本文及今后可能会持续写下去的一些文章参考了Google黑板报等一些学习资料,由于本人能力有限,错误在所难免(好俗),欢迎大家批评指教。废话少说,接下来让我们进入信息检索的世界。

信息检索概述

信息检索的概念

什么是信息检索呢?这还不简单,不就是用户提供一个查询词,系统基于这个查询词反馈给用户一系列相关的文档吗,简单说,就是搜索呗。那么,用一条SQL语句在数据库中检索某一条数据算不算信息检索呢?严格的说,不算。还是让我们看看信息检索的定义吧:信息检索是从非结构化的文档集中找出与用户相关的信息。这里的“非结构化”非常重要,当前非结构化的数据主要包括一些文本数据(如:新闻,科技论文等)、互联网上大量存在的HTML、XML网页、以及一些诸如图像、视频、音频在内的多媒体数据。与此相区别的就是诸如数据库这样的结构化文档。我们知道,对于数据库这样的结构化文档,我们通过SQL语句,是可以很容易的获取准确的返回结果的,而信息检索面临的挑战要多得多。

信息检索系统的体系结构


上图为一个典型的信息检索体系结构图,让我们对主要的模块进行一个简单的介绍吧

1、 文本处理:该模块处理用户的查询,包括删除停用词和提取词干(Stemming)。停用词是指诸如“的”“地”这样的词,停用此在文档中往往出现的频率很高但又没有什么实际意义,对它们进行处理不仅意义不大而且代价极高,所以一般在这个阶段将其删除。

2、 提问处理:对提问进行变换以改进检索结果。举个例子,如果我们对同义词进行扩展,然后再进行查询,则可以返回给用户更多的内容。

3、 建索引:由于信息检索所要处理的是海量的大规模文档集,不可能逐字逐词的进行匹配,因此必须对其进行建立索引这一模块。这样,当用户提交了查询后,我们就可以如同查词典一样快速定位了。目前建立索引的技术主要是倒排文件,我们将会在今后涉及。

4、 搜索:就是根据处理好的用户提问与倒排文件,检索出与问题相关的文档集合。

5、 排序:将检索出来的文档按照相关性排序,我们知道,Google 革命性的发明是它名为 “Page Rank” 的网页排名算法,可以说,正是凭借这个技术,Google奠定了今日搜索引擎的霸主地位。

上面是一个通用的信息检索体系结构图,将信息检索应用于网络,我们将会面临一些新的问题,如:与纯文本相比,网络文档需要“爬虫”在网络上进行爬行获取、文档的更新是不可控的、可以利用网页之间的链接结构等。


信息检索的历史

最后让我们以回顾历史的形式结束本文:

1960-70’s:

 最初的信息检索系统面向小型的科学文摘数据库、法律和商业文档, 检索模型为基本的布尔模型和向量空间模型, Cornell University的Prof. Salton和他的学生成为这个领域的先驱。

1980’s:

 IR技术出现在大型文档数据库中这样的系统有: Lexis-Nexis、 Dialog、 MEDLINE。

1990’s:

 在互联网上出现了对FTP文档进行搜索的系统,包括: Archie、 WAIS。

 在World Wide Web上进行搜索,包括: Lycos、 Yahoo、 Altavista。

这一时期也开始了学术机构对信息检索进行的有组织的评测,如由美国国防部Defense Advanced Research Projects Agency(DARPA)和美国国家标准技术协会National Institute of Standards and Technology (NIST)联合发起 的TREC评测。

2000’s

 为Web搜索服务的链接分析:此时Google开始崭露头脚。

 问答系统:问答系统的理念是让用户以自然语言问句的形式提出问题,系统返回精确的结果,askjeeve(http://www.ask.com)就为用户提供这样一种服务。

另外,针对多媒体信息的信息检索也成为研究的热门。


转载于:https://www.cnblogs.com/arthur1200/archive/2006/12/01/579378.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值