第二章 XML信息检索基础

2.1 信息检索系统

数据检索系统可分为四个部分:
1、数据预处理:
从多种格式的数据中提取正文和其他所需的信息。
2、索引生成:
索引是索引项的集合,一个索引项是由一个节点的关键码和该节点的存储位置组成的关联。
目前主流的方法是以词为单位构造倒排索引表。
3、查询处理
用户输入的查询条件可以有多种形式,很多系统采用查询扩展克服这一问题,很多人还采用相关反馈、关联矩阵等方法对查询条件进行深入挖掘。
4、检索
对结果进行重排序,一般的信息检索系统采用基于内容的计算技术来分析结果和查询的相关性。

2.2 信息检索模型

信息检索模型是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。

2.2.1 布尔模型

一个文档被表示为关键词的集合,查询式(Queries)被表示为关键词的布尔组合,用“与或非”连接起来,并用括号指示优先次序。

2.2.2 向量空间模型

1、查询和文档都被看成是由若干特征词组成的向量,每一个文档都被看成向量空间中的一个点,也就是有若干特征词描述的向量。文档与查询的相似性问题被描述成向量空间中的两个向量之间的相似度。按相似度大小将文档排序后提交给用户。相似度值的大小反映了文档与用户查询要求的相关程度。
2、术语:
1)文档d(Document):泛指各种及其可读的记录。
2)特征项t(Term):也称为索引项,是指出现在文档d中而且能够代表该文档内容的基本语言单位。
3)特征项权重 Wik (Term Weight):对应t在文献中的重要程度,

Wiktfik
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值