搜索引擎中的查询模型

搜索引擎查询模型包括布尔模型和向量空间模型。布尔模型简单但效果不佳,向量空间模型通过tf-idf计算文档与查询的相似度。概率模型如BIM、BM25和BM25F被商业搜索引擎广泛采用,考虑了文档相关性的概率。
摘要由CSDN通过智能技术生成

搜索引擎中的查询模型

posted by Andrew (justAStriver@gmail.com)
2013-03-03

搜索排序也是搜索引擎的核心部分,技术已经比较成熟,其中的查询检索模型主要有以下几个:

1.布尔模型

布尔模型是最简单的查询模型,文档包含查询词标记为1,否则为0,最后通过使用与或关系进行匹配。如用户查询词A && B && (C || D),假设只有4个文档,包含查询词A,B,C,D的文档分别为A(1,0,0,1);B(1,0,0,0),C(1,1,1,0),D(0,0,1,1),则包含A&&B的文档为(1,0,0,0),包含C||D的文档为(1,1,1,1),则A&&B&&(C||D)为(1,0,0,0),即最后返回文档1。

布尔模型最为简单,计算复杂度较低,但查询效果并不理想,没有体现相关度这个概念,同时只考虑查询词的包含/不包含关系,逻辑较为简单。

2.向量空间模型

向量模型考虑到单词在文档中出现的频率,考虑到了相关度的问题。向量空间模型最关键的是特征提取,对于查询词组特征提取成向量q,文档D特征提取向量为d,则可以通过计算cos(q,d)来表示查询词与文档的相似度。如下图所示。

Vector space model.jpg

    通过文档相似度理论的假设,比较每个文档向量和原始查询向量(两个向量的类型是相同的)之间的角度偏差,使得在文档中搜索关键词的关联规则是能够计算的。 实际上,计算向量之间夹角的余弦比直接计算夹角本身要简单。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值