基于词相关性的排序算法

最新推荐文章于 2022-08-17 00:54:47 发布

SrdLaplaceGua

最新推荐文章于 2022-08-17 00:54:47 发布

阅读量1.4k

点赞数 2

分类专栏：实用技巧机器学习读书笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SrdLaplace/article/details/84954920

版权

本文介绍了基于词相关性的排序算法，包括BIM（二元独立模型）、tf-idf以及BM25和BM25F。BIM通过贝叶斯公式计算文档与查询的相关性；tf-idf考虑词频影响；BM25改进了词频的处理，BM25F则针对文档的不同字段加权求和。

摘要由CSDN通过智能技术生成

基于词相关性的排序算法

BIM（binary independence model ，二元独立模型）

和朴素贝叶斯类似，假设同一篇文档里出现的词之间没有关联，互相独立。
Query 包含了若干词项 $t$ 。对于这个 query ，文档 doc 用一个向量表示 $d=(x_1,x_2,…,x_n)$ ，词项 $t$ 出现则 $x_t=1$ ，否则 $x_t=0$ 。
那么 doc 与 query 相关的概率为 $P (R = 1 ∣ d)$ 。由贝叶斯公式可得：
$P(R=1|d)=\frac{P(d|R=1)P(R=1)}{P(d)}$

定义 doc 对于 query 的相关性的优势率为：
$O(R|doc)=\frac{P(R=1|d)}{P(R=0|d)}=\frac{P(d|R=1)}{P(d|R=0)}\frac{P(R=1)}{P(R=0)}$

显然， $\frac{P(R=1)}{P(R=0)}$ 为常数，对于 $O$ 的大小关系不产生影响，再由独立性假设可知
$\frac{P(d|R=1)}{P(d|R=0)}=\frac{\prod_iP(x_i|R=1)}{\prod_iP(x_i|R=0)}$

最低0.47元/天解锁文章

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于词相关性的排序算法

基于词相关性的排序算法BIM（binary independence model ，二元独立模型）和朴素贝叶斯类似，假设同一篇文档里出现的词之间没有关联，互相独立。Query 包含了若干词项 ttt。对于这个 query ，文档 doc 用一个向量表示d=(x1,x2,…,xn)d=(x_1,x_2,…,x_n)d=(x1,x2,…,xn)，词项ttt出现则xt=1x_t=1xt=1...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。