BM25算法,TFIDF算法

bm25,搜索词与文档之间的相关性,基于概率检索模型提出的。
二值独立模型 BIM。
1. 词袋模型,与顺序无关
2. 词之间上下文的无关 ,

每个单词的权重
query中每个单词t与文档d之间的相关性
单词t与query之间的相似性
 

传统的TF值理论上是可以无限大的。而BM25与之不同,它在TF计算方法中增加了一个常量k,用来限制TF值的增长极限。下面是两种计算方法中,词频对TF Score影响的走势图。从图中可以看到,当tf增加时,TF Score跟着增加,但是BM25的TF Score会被限制在0~k+1之间。它可以无限逼近k+1,但永远无法触达它。这在业务上可以理解为某一个因素的影响强度不能是无限的,而是有个最大值,这也符合我们对文本相关性逻辑的理解。

参考

https://zhuanlan.zhihu.com/p/79202151

https://blog.csdn.net/qq_40859560/article/details/109147840

https://blog.csdn.net/sangyongjia/article/details/52440063

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值