标题相似度算法_搜索引擎中相似度算法TF-IDF和BM25

最新推荐文章于 2022-06-25 14:28:28 发布

没人在家

最新推荐文章于 2022-06-25 14:28:28 发布

阅读量810

点赞数

文章标签：标题相似度算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32965503/article/details/113720193

版权

本文介绍了搜索引擎中用于计算关键字与内容相关性的两种重要算法：TF-IDF和BM25。TF-IDF通过词频和逆文档频率来评估相关性，而BM25在TF-IDF基础上进行了改进，限制了TF值的增长，并引入了可调节参数以适应不同场景。

摘要由CSDN通过智能技术生成

前言

当我们使用搜索引擎时，它总是会把相关性高的内容显示在前面，相关性低的内容显示在后面。那么，搜索引擎是如何计算关键字和内容的相关性呢？这里介绍2种重要的相似度算法：TF-IDF和BM25。

TF-IDF是Lucene上一代(6.0以前)相似度算法，BM25是Lucene新一代(6.0以后)正使用的相似度算法。

先举个例子。假如，我们想找和“Lucene”相关的文章。可以想一下，那些内容里只出现过一次“Lucene”的文章，有可能是在讲某种技术，顺便提到了Lucene这个工具。而那些出现了两三次“Lucene”的文章，很可能是专门讨论Lucene的。通过直觉，我们可以得出判断：关键字出现的次数越多，文档与关键字的匹配度越高。

TF

Term Frequency，缩写为TF。通常叫做“词频”，表示文档中关键字出现的次数。

通常TF越大，相关性越高。

但是，你可能会发现一个问题。例如一篇小短文里出现了一次“Lucene”，而一部好几百页的书里提到两次“Lucene”，此时我们就不能说后者相关度更高了。为了消除文档本身大小的影响，在计算TF时引入文档长度这个参数，做文档长度标准化

TF socre ＝某个词在文档中出现的次数／文档的长度

举例：某文档D，长度为200，其中“Lucene”出现了2次，“的”出现了20次，“原理”出现了3次，那么

TF(Lucene|D) = 2/200 = 0.01

TF(的|D) = 20/200 = 0.1

<

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
标题相似度算法_搜索引擎中相似度算法TF-IDF和BM25

前言当我们使用搜索引擎时，它总是会把相关性高的内容显示在前面，相关性低的内容显示在后面。那么，搜索引擎是如何计算关键字和内容的相关性呢？这里介绍2种重要的相似度算法：TF-IDF和BM25。TF-IDF是Lucene上一代(6.0以前)相似度算法，BM25是Lucene新一代(6.0以后)正使用的相似度算法。先举个例子。假如，我们想找和“Lucene”相关的文章。可以想一下，那些内容里只出现过一次...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。