中文智能搜索引擎

最新推荐文章于 2024-05-10 11:15:00 发布

iteye_3058

最新推荐文章于 2024-05-10 11:15:00 发布

阅读量301

点赞数 1

文章标签：搜索引擎全文检索互联网应用服务器百度

传统搜索引擎

　　1．搜索引擎的分类

　　互联网的迅速发展和广泛普及导致网上信息爆炸性增长。目前存在数量众多的搜索引擎，根据它们所基于的技术原理，可以把它们分成三大主要类型:基于机器人Robot的搜索引擎、目录式Directory（也叫做Catalog）搜索引擎和Meta元搜索引擎。

　　基于机器人Robot的搜索引擎　这种搜索引擎的特点是利用一个称为Robot（也叫做Spider、Web Crawler或Web Wanderer）的程序以某种策略自动地在互联网中收集和发现信息，由索引器为收集到的信息建立索引，由检索器根据用户的查询输入检索索引库，并将查询结果返回给用户。服务方式是面向网页的全文检索服务。

　　基于Robot的搜索引擎一般要定期访问大多数以前收集的网页，刷新索引，以反映出网页的更新情况，去除一些死链接，网页的部分内容和变化情况将会反映到用户查询的结果中，这是基于Robot的搜索引擎的一个重要特征。

　　该类搜索引擎的优点是信息量大、更新及时、毋需人工干预。缺点是返回信息过多，有很多无关信息，用户必须从结果中进行筛选。这类搜索引擎的代表是：AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google；国内代表为：百度、悠游、OpenFind等。

　　目录式Directory搜索引擎　这种搜索引擎以人工方式或半自动方式收集信息。目录式搜索引擎的数据库是依靠专职编辑或志愿人员建立起来的，这些编辑人员在访问了某个Web站点后撰写一段对该站点的描述，并根据站点的内容和性质将其归为一个预先分好的类别，把站点的URL和描述放在这个类别中。信息大多面向网站，提供目录浏览服务和直接检索服务。很多目录也接受用户提交的网站和描述，当目录的编辑人员认可该网站及描述后，就会将之添加到合适的类别中。

　　目录的用户界面基本上都是分级结构，首页提供了最基本的几个大类的入口，用户可以一级一级地向下访问，直至找到自己感兴趣的类别。另外，用户也可以利用目录提供的搜索功能直接查找一个关键词，该类搜索引擎因为加入了人的智能，因此用户从目录搜索得到的结果往往比从基于Robot的搜索引擎得到的结果更具参考价值，缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是：Yahoo、AOL、Lycos、Open Directory等。

　　Meta元搜索引擎　元搜索引擎（Metasearch Engine），被称为搜索引擎之上的搜索引擎。用户只需递交一次检索请求，由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎，并将所有查询结果集中起来以整体统一的格式呈现到用户面前。由于采用了一系列的优化运行机制，它能够在尽可能短的时间内提供相对全面、准确的信息，而且即使不能完全满足用户需求，仍可以作为相对可靠的参考源进行扩展搜索，因此成为备受推崇的检索首选入口。

　　一个真正的元搜索引擎由三部分组成，即：检索请求提交机制、检索接口代理机制、检索结果显示机制。“请求提交”负责实现用户“个性化”的检索设置要求，包括调用哪些搜索引擎、检索时间限制、结果数量限制等。“接口代理”负责将用户的检索请求“翻译”成满足不同搜索引擎“本地化”要求的格式。“结果显示”负责所有源搜索引擎检索结果的去重、合并、输出处理等。这类搜索引擎的代表是：ByteSearch、Mamma、MetaCrawler、Profusion等。

　　2．传统搜索技术的局限

　　信息丢失　一般来说，目录式的搜索引擎由于目录只在对站点的描述中进行搜索，因此站点本身的动态变化不会反映到搜索结果中来，对网站的描述也十分简略，其描述能力不能深入网站的内部细节，因此用户不能查询网站内部的重要信息，造成了信息丢失。

　　返回信息太多　基于机器人的搜索引擎由于应用了全文检索技术，能够解决对网页细节的检索问题。从理论上说，只要网页上出现了某个关键词，就能够使用全文检索用关键词匹配把该网页查出来，但是这又导致了它的缺陷——返回的信息太多。

　　信息无关　返回信息过多只是全文检索给人直观感觉到的问题。除此之外，它还有两个不很直观的深层次问题也给信息检索带来了不少困难。

　　很多情况下，用户很难简单地用关键词或关键词串来忠实地表达他所真正需要检索的内容，表达困难导致检索困难。

　　人类的自然语言中，随着时间、地域或领域的改变，同一概念可以用不同的语言表现形式来表达。因此，对同一概念的检索，不同的用户可能使用不同的关键词来查询。

　　这个两个问题造成的直接结果就是返回大量的无关信息。比如，“计算机”和“电脑”是同一类产品，但是搜索结果往往大不相同。

　　造成上述信息检索困难的原因的实质在于传统的搜索引擎对要检索的信息仅仅采用机械的关键词匹配来实现，缺乏知识处理能力和理解能力，也就是说搜索引擎无法处理在用户看来是非常普通的常识性知识，更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等等。

　　因此，结合人工智能技术的智能搜索引擎把信息检索从目前基于关键词层面提高到基于知识（或概念）层面，是解决问题的根本和关键。

　　智能搜索引擎

　　1．智能搜索引擎发展状况

　　智能搜索引擎是结合了人工智能技术的新一代搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识（或概念）层面，对知识有一定的理解与处理能力，能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。智能搜索引擎具有信息服务的智能化、人性化特征，允许网民采用自然语言进行信息的检索，为他们提供更方便、更确切的搜索服务。这类搜索引擎的代表有：尤里卡、问一问、21ilink、孙悟空、悠游等；国外代表：Ask jeeves、Google等。

　　2. 智能搜索引擎的技术

　　各个智能搜索引擎技术的实现各不相同、各有特点，但从实现智能搜索基本思路上是相通的。下面以尤里卡搜索引擎为例，简要说明一下技术实现。

　　知识库和信息库　知识库是实现智能搜索的基础和核心，知识库就像人脑里存放的知识。人脑是人们认知、理解世界和改造世界的基础。人脑所做到的不仅仅是对信息的接受，而是对信息的判断、提取、分析和概括之后形成自己的知识，然后保存到大脑中，成为下一次分析、概括的依据和基础。这样，人脑的知识就处在一种自增长的过程。人们掌握知识的多少，决定了人们认知、理解和改造世界的程度。知识库的形成与增长，就如同人脑知识的增长，也处于一种自增长自循环的状态，知识库的丰富程度也同样决定着检索能力的高低。

　　信息库就是互联网。互联网是一个巨大的、非结构化而且处于不停变化的信息空间。信息库可以起到两方面的作用。首先，信息库是知识库存在和发展的空间，知识库所做的其实就是对信息库的判断、提取、分析和概括，所谓知识是从信息来，就是这个道理。其次，信息库也是用户所要检索的内容，智能搜索引擎所做的就是通过知识库把用户的问题提高到知识（概念）的层面，然后利用这个知识（概念）检索信息库。

　　语义分析、知识管理和检索　要做到智能搜索还必须做到知识库和信息库的结合。要做到两个核心库的有机结合要做到以下三点：语义分析、知识管理和知识检索。

　　语义分析是分析用户语言的具体含义。它应该实现以下几个功能：整句分词、处理同义词、根据知识库分析关键词明确概念和语义及一定程度地丰富知识库。

　　知识管理主要实现知识库的自增长。前面提到，知识库的增长基础是对信息库的概括和提取，所以知识管理首先要做到对信息库的分析和概括，然后是对知识库的扩充。

　　知识检索是实现智能搜索的最后一环，通过前面语义分析结果，明确用户用意，对信息库进行知识（概念）层次的检索，在给出准确答案的同时，给出用户相关问题，从多方位对用户的问题进行回答。

　　3．智能搜索引擎的优点

　　搜索结果的准确性　由于采取了知识库为基础的语义分析，在进行检索过程中，采用的不是关键词全文检索，而是基于概念的检索。比如说当你输入“北京天气怎么样？”，传统搜索引擎返回的结果连小说都检索出来，因为小说内容包括“北京天气怎么样？”这句话。而智能搜索引擎，由于采取语义分析的方法，分析出北京天气这个概念，直接给出北京的天气情况预报。

　　搜索结果的范围定位准确　由于采用知识（概念）检索技术，明确和缩小了搜索范围，减少对无用信息范围的检索。比如上面的例子，智能搜索引擎只在天气这个范围进行检索，从而提高了检索效率，减少了无用信息。智能搜索引擎是以搜索结果准确、范围小为特点的。

　　搜索结果的综合性　由于采用了知识库，搜索引擎将给用户提供更全面、更综合和更合理的知识框架。在这里，信息检索只是信息服务的一部分。比如说当你输入“在北京怎么找工作？”，给出的答案不仅仅是给出“北京地区的招聘信息”，而且还给出“北京地区的人才政策”、“求职技巧”等信息。

　　搜索结果的智能性　所谓“智能来自知识”，有综合知识库作为背景，信息检索和导航服务将更智能。知识库中的知识有助于解决前面提到“表达差异”问题。例如，只要定义“计算机”、“电子计算机”、“电脑”是同义关系就可以消除用户由于使用不同的词表达同一概念而带来的检索困难。另一方面，知识库对用户的查询进行相关性联想，提供引导用户进行下一步查询的线索。这样一步一步地在与用户的交互过程中诱导用户“表达”出他真正想找的东西，从而实现对查询的智能导航。这种逐步求精的策略解决了信息检索“忠实表达”的难题。

　　4．智能搜索引擎的发展与应用

　　建立理论上完备的知识库是不现实的。这是因为人的知识、特别是常识性知识具有“数量”上的浩瀚无际，在“质量”上又有高度的不确定性和模糊性，要建立这样一个知识网络是极端困难的。

　　然而，这丝毫不会影响基于知识库的智能搜索技术的可行性和可操作性。这是因为，理论上完备的知识库虽然难以实现，但是我们可以通过降低求解目标的方法，针对具体的搜索引擎需求，建立相应的知识库（或称概念图），这里的知识库是对理论上完整知识库的一种近似，一种局部实现。针对某一领域、甚至某一站点所有网页所反映的知识来构造一个局部的小知识库是相对容易实现的。它的知识在数量和质量上虽然不能与理想的知识库相比，对具体搜索任务却是实用的。更重要的是，知识库里的知识可以在使用中不断改进，数量上不断增加，质量上不断提高。这是一个对知识进行训练的过程，可以通过人来完成，也可以使用机器学习等手段来实现.