XML检索

随着Internet上信息量的与日俱增,传统的基于HTML的信息检索已经无法满足人们不断变化的信息需求。为此,专家学者们努力寻求各种新的技术方法和解决手段,XML的出现在很大程度上能缓解这一问题。由于XML具有可扩展性、简单性、开放性、互操作性等诸多特点,正逐步取代HTML,成为驻留在Web上的主要的信息形式,而其结构化及自描述等特性亦给检索效果的提高带来了新的契机。如何充分利用XML的新特性,同时借鉴传统信息检索的方法与技术,开发基于XML的信息检索系统,已成为国际信息检索领域研究的热点问题之一。

XML检索与传统信息检索的区别

  XML检索与传统信息检索的最大区别在于:在传统的信息检索中,检索单元是固定的、完整的文档;而在XML检索中,文档中的各个层次的XML元素都是可检索的单元。这使得XML检索更加困难,除了相关性外,检索单元的大小、单元之间的信息重叠问题、同一文档内各单元信息的相关性等都是需要考虑的问题;此外,传统的检索系统只对信息的内容进行索引,提供关键词基础上的自由文本的内容检索,这些检索往往忽视了对被搜寻的概念语义的掌握,因而造成检索结果查全率和查准率不高;而XML信息检索系统更关注文档中蕴含着丰富的结构信息和语义信息,它对内容进行索引的同时还对元素进行索引,这样的好处是不仅能从文档中找到相关信息,而且通过考虑信息的结构和粒度问题,能实现内容+结构的检索。

XML检索的目标与任务

  与传统信息检索系统不同,XML检索系统返回的结果是元素,而不单是整个文档。检索结果包括元素信息、文档信息和结构信息,这决定了XML检索的检索任务是多样的。对于Ad-Hoc检索,有3个子任务:CO(ContentOnly)子任务,CO+S(ContentOnly+Struc?

  ture)子任务以及CAS(ContentandStructure)子任务。其中,CO子任务是面向内容的XML检索,其不考虑XML结构信息,根据返回信息的类型和方式,该任务分为CO.Focused(检索结果不含重复元素信息)、CO.Thorough(检索结果允许重复元素信息)以及CO.FetchBrowse(先检索文档然后对文档内元素信息按相关度进行排序显示,
  该类型是文档检索和元素检索的结合);CO+S子任务关注的是CO查询加上结构提示后的检索效果;CAS查询则适合了解文档模式的用户,可包含明确的或含糊的结构要求。其中CAS查询又分严格的结构与内容(StrictContentandStructure,SCAS)查询和模糊的结构与内容(VagueContentandStructure,VCAS)查询。SCAS查询要求包含明确的路径结构要求,所有满足目标路径要求的查询结果才认为是相关。VCAS查询可包含松散或含糊的路径结构要求,查询结果未必准确符合查询的目标路径要求。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值