elasticsearch relevance score algorithm (一) ：TF / IDF

最新推荐文章于 2024-07-07 21:08:35 发布

virgil.wang

最新推荐文章于 2024-07-07 21:08:35 发布

阅读量191

点赞数

分类专栏： # 4. 数据结构与算法文章标签： elasticsearch 深度学习 tf-idf

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_34351851/article/details/120683518

版权

4. 数据结构与算法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

题外话

记忆缩写的时候，最好记住它们的全拼，这样就能快速的反应出这个缩写是干什么的。

比如说 API，大家都知道代表接口的意思，但是具体来说接口是什么，就开始含糊其辞了。假如说我们记住 API 的全拼是 application program interface, 就可以直接回答出 API 是应用程序的入口。

1、 TF / IDF

Term Frequency / Inverse Document Frequency

词频 / 逆文档频率

使用场景：在 elasticsearch version 5 及之前默认的算分算法。之后使用了 BM25 算法。

2、 TF

检索词在一篇文档中出现的频率。

公式： 检索词出现的次数 / 文档的总字数

度量一条查询和结果文档相关性的简单方法：简单的将搜索中每一个词的 TF 进行相加。

TF（鲜美）+ TF（的） + TF（肥羊）

停用词对 TF 的影响

“的”一般情况下属于停用词，虽然在文档中出现了很多次，但是对贡献相关性的得分几乎没有什么用户，不应该考虑他们的 TF。

3、 IDF

IDF 的全拼是 Inverse Document Frequency, 由 Inverse 和 Document Frequency 组成。在理解的时候，可分开来理解。其中， DF 表示的是检索词在所有文档中出现的频率， I 来修改 DF，意思是说取反的意思，出现的频率越大，对得分贡献越低。

例
demo
倒排列表存储的值的解释
demo

4. 总结

TF / IDF 的本质就是 TF 求和和 IDF 的加权求和。

参考函数：对数函数 logaN，其中 a > 1,
IDF relevance score = log全部文档数 / 检索词出现过的文档总数

对数函数

lucene TF/IDF 计算公式

lucene tf/idf algorithm

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

virgil.wang CSDN认证博客专家 CSDN认证企业博客

码龄9年

165: 原创

5万+: 周排名

160万+: 总排名

36万+: 访问

: 等级

3185: 积分

34: 粉丝

124: 获赞

74: 评论

409: 收藏

私信

关注

热门文章

分类专栏

最新评论

LBS计算附近的对象：MySQL 空间索引方式
weixin_38042286: 普通sql使用or连接也是不走索引的
LBS计算附近的对象：MySQL 空间索引方式
ChengDylan: -- MySQL 8.0.28 explain select * from chong h where MBRContains(ST_Buffer(ST_GeomFromText('POINT(103.98849000000000 23.35760010000000)', 4326,'axis-order=long-lat'), 2000), h.poi) -- OR AND MBRContains(ST_Buffer(ST_GeomFromText('POINT(103.94935600000000 23.37319120000000)', 4326,'axis-order=long-lat'), 2000), h.poi) -- 执行 103.98849000000000 23.35760010000000 31条 -- 执行 103.94935600000000 23.37319120000000 1226条 -- 使用 and 后，无数据走了索引 -- 使用 or 后，1257 无索引
mybatis jpa repository 方法关键词对应关系表
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)使用更多的站内链接；(3)使用标准目录。
MyBatis逆向生成-generatorConfig.xml详解
CSDN-Ada助手: SpringBoot里的消息队列中间件有哪些，他们的数据流是怎样的呢？
Windows 10 系统更新后 vagrant up 报错：Error opening VBoxDrvStub: STATUS_OBJECT_NAME_NOT_FOUND
过去式189: VboxDrv.inf安装失败了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。