搜索引擎原理及存在问题

表网页源文件内容特征的关键词, 汇集成索引数据库, 并随时顺着链接跟踪网上新加入的主页, 为其建立索引。索引数据库就是一个很大的查询表, 主要的字段有: 网站的名称、标题、U R L 地址、摘要等。各搜索引擎标引方法因系统不同而存有差异, 因此, 使得相同的检索请求在不同的搜索引擎中会得出差别很大的检索结果, 但大多数均采取自动标引技术。有的是对W eb 页面内容进行全文索引, 即对W eb 页中每一个单词进行标引。有的从文章中按某

些分类或特征对信息进行抽取。例如: Lycos 仅标引文件名、文件标题和全文前20 行的内容。而A ltaVista 的索引处理则最为全面, 不仅对网页的所有文本、图像及链接等进行索引, 而且还记录单词之间的相对位置。一般来说, 标引的索引词越多, 检索的全面性越高, 分析索引模块是搜索引擎提供检索服务的基础。

检索服务模块主要分为四个内容: 第一, 检索界面, 接受用户提交的检索要求。目前, 搜索引擎几乎都提供基本检索和高级检索两种界面, 供用户选择使用。第二, 检索策略, 将用户提交的检索要求编制成计算机可执行的规范化检索式。常用的信息检索模型有: 布尔逻辑模型、模糊逻辑模型、向量空间模型和概率模型。大多数系统是把以上各种模型综合应用, 以期达到最佳的检索效果。然而, 各搜索引擎仍然具有各自的风格特点, 例如: H otbot的默认词间关系, 可以利用下拉式菜单进行选择, 并不需要用户输入布尔逻辑运算符; Excite 的智能概念提取可直接在文献中自动进行基于概念的词语提取;Lycos 的强大位置检索功能可指定任意两个单词之间的词序和间距。第三, 检索执行, 根据用户提交的检索式到索引数据库中进行搜索。第四, 检索结果,将检索到的资料整理组织后按一定顺序提供给用户。搜索引擎的检索结果通常包含大量文献, 为了将最有“价值”的网页提供给用户, 搜索引擎一般都能按查询的相关程度对检索结果进行排列, 最相关的文献通常排在最前面。事实上, 大部分用户也只注重搜索结果中的前两页。不同的搜索引擎对相关度的判定原则是不同的, 确定相关性的方法有概率方法、位置方法、摘要方法、分类或聚类方法等。在实际中, 人们采用多种手段提高相关性排序的能力, 但最主要的还是利用检索词出现的位置和出现的频度。检索词在文中出现的位置, 标题和靠前的文字往往具有较高的权值。独立型搜索引擎的工作原理简言之, 即信息搜集系统从一个或一组已知的U R L 开始访问互联网,下载相关的网页信息及新的链接, 以一定的策略遍历新链接, 并读取新链接的信息内容, 将它们加入到本地数据库。然后, 由分析索引模块对这些数据进行处理组织后, 形成索引数据库。用户通过检索模块提交查询服务, 在搜索框中输入检索式, 系统就会自动完成, 并按一定的排列方式返回检索结果。因此, 独立型搜索引擎实用、方便。2.2 元搜索引擎为了实现搜索引擎之间的优化组合, 元搜索引擎(M etasearch Engine)由此而产生。元搜索引擎与独立型搜索引擎的最大不同之处就在于它没有自己的资源数据库, 它充当的是一个中间代理角色。元搜索引擎又称为集合式搜索引擎、索引式搜索引擎, 它将多个独立型搜索引擎集成在一起, 共享多个搜索引擎的资源库, 提供一个统一的检索界面, 为用户提供信息服务的智能化检索系统。元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理, 串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。一个真正的元搜索引擎大致可分为三个功能模块, 即检索预处理模块、接口代理模块、检索结果处理模块。元搜索引擎的工作原理比独立型搜索引擎要简单。当用户提交检索请求后, 预处理模块对用户的检索请求进行“个性化”处理, 包括调用哪些搜索引擎、检索时间限制、结果数量限制等。然后, 由接口代理模块将用户的检索请求翻译为多个独立型搜索引擎所能识别的格式, 分别发送给各个搜索引擎, 由这些搜索引擎完成实际的信息检索。最后, 检索结果处理模块把从各个独立型搜索引擎返回的结果进行比较分析, 归并冗余, 删除重复, 并以某种算法排序,以一定的格式返回给用户。比较独立型搜索引擎, 元搜索引擎可以一次让多个独立型搜索引擎检索信息, 能够获得较高的查全率。例如, 万纬能并行搜索国内及国外多个著名搜索引擎, 它集成的搜索引擎目前包括三个英文搜索21

图书情报论坛2006 年第4 ( 总第72 )

引擎G oogleH otBotY ahoo! 和六个中文搜索引擎如新浪、天网、搜狐、中文雅虎、中文G oogle、百度。用户可根据需要自由选择其中的搜索引擎进行同步搜索, 搜索结果可按相关度、时间、域名分类和引擎进行排序。这样, 用户可以获得更多更全面的信息。同时, 元搜索引擎通过对独立型搜索引擎得到的直接查询结果使用过滤器或改进算法, 使其准确率得到了较大程度的改善。元搜索引擎的技术重心在于查询前的处理和结果的集成。元搜索引擎可以灵活选择所要采用的独立搜索引擎, 一般都是选择那些比较典型的性能优异的独立搜索引擎, 这种强强联合的结果保证了搜索结果的权威性和可靠性, 它还可以充分发挥各个独立搜索引擎在某个搜索领域的功能, 弥补独立搜索引擎信息覆盖面的局限性。因此,大型、综合、集成的元搜索引擎的研究开发仍是国内的当务之急。

3 搜索引擎存在的问题

随着互联网的强势发展, 搜索引擎已成为网络上被使用频率最高的服务项目之一。但是, 海量的信息增长与人们获取所需信息能力之间的矛盾日益突出, 搜索引擎存在的问题也愈加凸显出来, 主要表现在以下几方面:

( 1) 网络信息质量控制欠缺, 信息的冗余较大,而覆盖面又有限。R obot程序搜集信息时, 对深层

W eb 文档挖掘不够, 一些深层目录下的重要网页被遗漏, 而众多的垃圾网页被采集。有些网页虽然没有出现搜索词, 但内容和搜索词十分相关, 而搜索引擎却无法搜索到这些网页。这样, 信息查准率低, 且误检率、漏检率高。尽可能地利用多个R obot程序协调工作完成网页的采集, 同时, 判定搜索词和网页的相关程度时, 应增加语意理解。

( 2) 大量占用昂贵的网络带宽和CPU 资源。随着信息数据库的膨大, 搜集信息和维护数据库将占用许多宝贵的网络带宽和CPU 资源。另外, 检索过程的重复性也无情地消耗着额外的带宽资源。转载网页与镜像网页的存在, 不可避免地造成重复性的检索工作。同时, 在数据库维护方面, 若采用定期“批量搜集”也会出现重复搜集所带来的额外带宽的消耗。

( 3) 索引数据库更新困难、提供的信息滞后。搜索引擎机器人只能在由系统管理员确定的一定时间间隔内跟踪特定信息, 不能保证信息的及时更新, 导致产生错链和死链。同时, 随着网络信息数量的指数增长, 引擎数据库急剧膨胀, 检索速度也将会变慢。

( 4) 搜索引擎之间各行其是、缺乏合作。每一个搜索引擎都有自己的检索规则, 关于用户查询接口,不管是技术上或方法上, 各种搜索引擎给出了不同的实现方式, 尚不统一, 用户利用不同的搜索引擎需要进行不同的适应过程。其使用的方便性和用户友好性都有待进一步改进。

( 5) 搜索结果单一化, 缺乏个性化服务。任何人使用同一个引擎搜索同一个词的结果都是一样的,

搜索引擎没有考虑不同地域、性别、年龄的用户有其信息需求的差异, 没有充分利用记录用户查询行为的日志。可在搜索引擎系统中增设用户行为分析模块, 通过对用户的不断了解、分析, 进而构造个性化信息数据库, 针对每个用户的检索, 通过调用个性化信息数据库, 使得个性化搜索更符合每个用户的需求。

( 6) **页搜索的困难, 实时搜索几乎不可能。在**页中, 同一网页中可能带有不同的参数值, 如果R obot程序把这些超级链接看成是不同的U R L, 就会掉进网络陷阱。因此, R obot程序在搜集网页时要忽略所有带参数的U R L。独立型搜索引擎信息覆盖面小, 信息收集量有限, 查全率低, 且用户需要对不同的搜索引擎进行适应, 人们提出了元搜索引擎的概念。元搜索引擎的出现基本上解决了信息检索中的查全率问题, 但它也存在着不足。

一是检索功能有待完善。由于大部分搜索引擎互不兼容, 相互操作性差, 使得检索式处理非常复

, 如果查询请求包含超过一个、两个词或更多复杂的逻辑, 位于查询请求中较后面的词和逻辑很可能被忽略, 因为有的元搜索引擎不支持高级检索、不支持字段检索; 有的不能正确处理词组和布尔逻辑运算符; 有的不支持位置检索等。而且由于元搜索引擎实现语法转换的能力有限, 不同的元搜索引擎挂接的独立搜索引擎各不相同, 而不同的搜索引擎解析检索表达式的方式不同, 所以目前元搜索引擎一般只使用andornot等简单的布尔逻辑运算。另外, 元搜索引擎普遍缺乏分类检索, 检索途径单一。这些不22佘正平: 搜索引擎原理及存在问题足都直接影响着元搜索引擎的检索效率。

二是检索结果的处理不够理想。元搜索引擎需要对多个独立搜索引擎的返回结果进行处理, 考虑

到系统运行的效率与响应时间, 大多数元搜索引擎只取每个搜索引擎返回的前几个搜索结果, 这样必定影响信息的覆盖面。然而, 有些元搜索引擎的结果中仍有重复。检索结果的排序不够理想, 由于在不同的搜索引擎在搜集信息的数量、收集信息的范围、采用的索引方法、使用的相关度评价等方面的巨大差异, 对不同的搜索引擎返回大额结果不能很好地进行排序。有些元搜索引擎没有提供排序选择, 有些没有明确说明检索结果按什么方式排序。另外检索结果的链接情况也不够理想, 有些网页打不开, 存在死链接。

三是检索速度较缓慢。元搜索引擎因其检索实现建立于若干独立搜索引擎之上, 用户提问需经过

检索模式转换、独立搜索引擎搜索相关信息、搜索结果的处理等一系列环节, 这一过程需要等待一段较长的时间, 所以检索速度较为缓慢。

四是中文元搜索引擎与英文元搜索引擎相比还存在较大差距。目前英文元搜索引擎发展较快, 而中文元搜索引擎发展较缓慢, 与英文元搜索引擎相比,还存在较大差距, 无论是从元搜索引擎的数量, 还是从其页面设置、检索功能、结果处理等方面都还存在一些问题, 因此如何借鉴英文元搜索引擎的经验, 发展中文元搜索引擎, 就显得尤为迫切和重要。

4 结语

2l 世纪的科技创新都强调以人为本, 搜索引擎的发展也始终围绕的是用户, 用户在利用搜索引擎的过程中除关注搜索引擎的数据库质量、检索技术和信息服务功能外, 也非常关注搜索引擎对用户的友好性。让搜索引擎更关注用户的行为和习惯, 对不同的用户群甚至细化到用户个人提供个性化的服务, 而且这种服务是由搜索引擎智能而主动地提供,也就是说这是一个让搜索引擎学习人类思维和行为, 并且能够自适应的过程。所以, 搜索引擎的未来发展是使之成为一个更加个性化, 更加智能化的系统, 更重视用户的行为而不是信息本身。总之, 随着信息技术和新一代因特网的发展, 搜索引擎的研究和应用将迈上一个新的台阶, 我们期待着搜索引擎的发展为信息资源检索带来一个美好的明天。

参考文献

1 沈固朝. 网络信息检索.工具法实践.北京: 教育出版社,

2004

2 徐建华.网络搜索引擎原理特性分析及未来发展趋势.图书

情报工作, 2000( 8)

3 杨应全等.搜索引擎的不足与应用经验.现代情报, 2005(7)

4 韩梅.网络搜索引擎研究综述( 1994- 2004 ) .图书馆学研

, 2005( 10)

5 晏一平, 岳泉.中外元搜索引擎的比较.图书馆学研究, 2005

( 11)

佘正平集美大学图书馆。通讯地址: 福建厦门集美大学

图书馆。邮编361021

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值