信息检索

随着计算机技术的迅速发展,互联网上的信息资源正在急剧的膨胀,要在浩如烟海的信息海洋里获取想要的信息资源,离开搜索技术,将是不堪设想。

1.信息获取
互联网(Internet)正以前所未有的态势改变着整个世界,它现在已经成为了人类有史以来资源数量最多、资源种类最全、资源规模最大的一个综合信息库。其信息来源丰富、分布广泛,各种类型信息资源异构地分布于网络空间中,如果不能使庞杂的信息有序化,就很难有效获取。如何准确有效地从互联网上获取信息,就显得十分迫切和重要。
信息获取技术包含信息的表示、存储、组织和对信息的访问方法。信息的表示和组织是为了让用户更容易地访问到需要的信息。一般来讲,信息获取的流程分为以下几部分。
• 在获取信息之前,首先需要构造文本数据库,即将来需要进行检索的数据。
• 在有了文本数据之后,需要建立文档的索引。利用索引技术可以大大提高信息检索的速度。当前有很多种建立文档索引的方法,然而对于大规模的数据量来讲,用得最多的还是倒排索引技术。在Lucene中,索引部分也是使用的倒排索引的方法。
• 在建立好索引之后,就可以对其进行检索了。用户首先给出一个查询,该查询将被分析,然后利用文本处理技术进行处理。在查询操作进行之前还可以对其进行一些与处理。
• 最后根据用户的查询将获取一些文档,这就是检索结果。在把检索结果反馈给用户之前,还可以对检索结果按照一定的次序排序,以使符合用户需要的文档能够排在更前面。

2.搜索引擎的发展
曾有人说搜索引擎的鼻祖就是黄页,诞生于19世纪末。因为黄页,在电话诞生后成为了以电话为主体的信息门户,而且黄页把有电话的企业分门别类,的确与现在的搜索引擎有异曲同工之妙。不过,这更多地是从这两者的形式和用途做的类比。
我们所说的搜索引擎其实是在近10年的不断发展中逐步形成的,它建立在互联网和诸多计算机技术之上,所以很难把搜索引擎的缘起与哪个具体的产品对应起来。然而,在它逐步发展的过程中,一些关键系统和产品的产生成为了具有里程碑意义的事情。
1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。
1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索,这就是Excite,后来曾以概念搜索闻名。1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)诞生。除了网站搜索,它还支持Gopher和Telnet搜索。
Lycos是搜索引擎史上又一个重要的进步。Carnegie Mellon University的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要。
1998年10月之前,Google只是Stanford大学的一个小项目BackRub。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图、股票、词典、寻人等集成搜索、多语言支持、用户界面等功能上的革新,像Altavista一样,再一次彻底改变了搜索引擎的定义。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值