XML检索

最新推荐文章于 2022-08-30 19:50:56 发布

qin3232521

最新推荐文章于 2022-08-30 19:50:56 发布

阅读量360

点赞数

文章标签： xml 文档任务扩展

随着Ｉｎｔｅｒｎｅｔ上信息量的与日俱增，传统的基于ＨＴＭＬ的信息检索已经无法满足人们不断变化的信息需求。为此，专家学者们努力寻求各种新的技术方法和解决手段，ＸＭＬ的出现在很大程度上能缓解这一问题。由于ＸＭＬ具有可扩展性、简单性、开放性、互操作性等诸多特点，正逐步取代ＨＴＭＬ，成为驻留在Ｗｅｂ上的主要的信息形式，而其结构化及自描述等特性亦给检索效果的提高带来了新的契机。如何充分利用ＸＭＬ的新特性，同时借鉴传统信息检索的方法与技术，开发基于ＸＭＬ的信息检索系统，已成为国际信息检索领域研究的热点问题之一。

ＸＭＬ检索与传统信息检索的区别

　　ＸＭＬ检索与传统信息检索的最大区别在于：在传统的信息检索中，检索单元是固定的、完整的文档；而在ＸＭＬ检索中，文档中的各个层次的ＸＭＬ元素都是可检索的单元。这使得ＸＭＬ检索更加困难，除了相关性外，检索单元的大小、单元之间的信息重叠问题、同一文档内各单元信息的相关性等都是需要考虑的问题；此外，传统的检索系统只对信息的内容进行索引，提供关键词基础上的自由文本的内容检索，这些检索往往忽视了对被搜寻的概念语义的掌握，因而造成检索结果查全率和查准率不高；而ＸＭＬ信息检索系统更关注文档中蕴含着丰富的结构信息和语义信息，它对内容进行索引的同时还对元素进行索引，这样的好处是不仅能从文档中找到相关信息，而且通过考虑信息的结构和粒度问题，能实现内容+结构的检索。

ＸＭＬ检索的目标与任务

　　与传统信息检索系统不同，ＸＭＬ检索系统返回的结果是元素，而不单是整个文档。检索结果包括元素信息、文档信息和结构信息，这决定了ＸＭＬ检索的检索任务是多样的。对于Ａｄ－Ｈｏｃ检索，有３个子任务：ＣＯ（ＣｏｎｔｅｎｔＯｎｌｙ）子任务，ＣＯ＋Ｓ（ＣｏｎｔｅｎｔＯｎｌｙ＋Ｓｔｒｕｃ?

　　ｔｕｒｅ）子任务以及ＣＡＳ（ＣｏｎｔｅｎｔａｎｄＳｔｒｕｃｔｕｒｅ）子任务。其中，ＣＯ子任务是面向内容的ＸＭＬ检索，其不考虑ＸＭＬ结构信息，根据返回信息的类型和方式，该任务分为ＣＯ．Ｆｏｃｕｓｅｄ（检索结果不含重复元素信息）、ＣＯ．Ｔｈｏｒｏｕｇｈ（检索结果允许重复元素信息）以及ＣＯ．ＦｅｔｃｈＢｒｏｗｓｅ（先检索文档然后对文档内元素信息按相关度进行排序显示，

　　该类型是文档检索和元素检索的结合）；ＣＯ＋Ｓ子任务关注的是ＣＯ查询加上结构提示后的检索效果；ＣＡＳ查询则适合了解文档模式的用户，可包含明确的或含糊的结构要求。其中ＣＡＳ查询又分严格的结构与内容（ＳｔｒｉｃｔＣｏｎｔｅｎｔａｎｄＳｔｒｕｃｔｕｒｅ，ＳＣＡＳ）查询和模糊的结构与内容（ＶａｇｕｅＣｏｎｔｅｎｔａｎｄＳｔｒｕｃｔｕｒｅ，ＶＣＡＳ）查询。ＳＣＡＳ查询要求包含明确的路径结构要求，所有满足目标路径要求的查询结果才认为是相关。ＶＣＡＳ查询可包含松散或含糊的路径结构要求，查询结果未必准确符合查询的目标路径要求。