文本相似度（tf-idf 和 bm25的算法讲解）

最新推荐文章于 2024-05-13 17:51:32 发布

#叫啥名字呢

最新推荐文章于 2024-05-13 17:51:32 发布

阅读量1.6w

点赞数 6

分类专栏： NLP 文章标签： NLP 文本相似处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40411446/article/details/80384060

版权

1.关于tf-idf：

(使用tf-idf和向量空间模型)

TF：文档 j 中的关键词 i 的归一化词频值

描述某一词在一篇文档中出现的频繁程度。

（为了阻止更长的文档得到更高的相关度权值，必须进行文档长度的某种归一化）

TF=freq(i,j) / maxOthers(i,j) ###(maxxOthers = max(freq(z,j))

IDF : 逆文档频率。

降低所有文档中几乎都会出现的关键词的权重。（例如的，了等）

IDF = log(N /n(i)) ###N 为所有可能推荐文档的数量，n(i)为N中关键词 i 出现过得文档的数量。

TF-IDF权值 = TF*IDF

2.关于BM25：（可插拔的相似度算法）

BM25源于概率相关模型，而非向量空间模型

BM25同样使用词频，逆文档频率以及字段长度归一化，但是每个因子的定义都有细微差别

（###TF-IDF没有考虑词频上限的问题，因为高频停用词已经被移除了）

（###BM25 有一个上限，文档里出现5-10次的词会比那些只出现一两次的对相关度有显著影响），参见词频饱和度图：

字段长度的归一化：

字段某个词的频率所带来的重要性会被这个字段长度抵消，但是在实际的评分函数中会将所有字段以同等方式对待，认为所有较短的title 比较长的body 字段更重要。

BM25 当然也认为较短字段应该有更多的权重，但是它会分别考虑每个字段内容的平均长度，这样就能区分短 title 字段和 长 title 字段。

在

最低0.47元/天解锁文章

#叫啥名字呢

关注

6
点赞
踩
53

收藏

觉得还不错? 一键收藏
0
评论
文本相似度（tf-idf 和 bm25的算法讲解）

1.关于tf-idf：(使用tf-idf和向量空间模型)TF：文档 j 中的关键词 i 的归一化词频值描述某一词在一篇文档中出现的频繁程度。（为了阻止更长的文档得到更高的相关度权值，必须进行文档长度的某种归一化）TF=freq(i,j) / maxOthers(i,j) ###(maxxOthers = max(freq(z,j)) IDF : 逆文档频率。降低所有文档中几乎都会出现的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。