ES相似度打分算法

Zww0891

已于 2024-04-19 09:16:16 修改

阅读量656

点赞数 4

分类专栏： Spring-Cloud 文章标签： elasticsearch springcloud

于 2024-03-20 22:56:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Zwwxd666/article/details/136891254

版权

Spring-Cloud 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

ElasticSearch相似度打分算法

1-TF

TF（Term Frequency）——词语频率，也称词频

算法词条在文档出现的频率—— Σ 关键词出现次数/该文档的总词数 （这里的Σ就是算出所有词频，然后相加）
eg 用户搜索——【A,B】 ES索引库里的所有文档 [A,D,G] [C,F,W],[K,I,O]

A在第一条文档出现了1次，总词数为3则——1/3===》0.333分

B在第一条一次都没出现====》0分最终检索出来的0.333+0=0.333分

检索出第一条文档，至此我们解决了词语出现次数排列检索结果

但是，如果一条文档里，有很多我们不想要检索的词条呢？例如，苹果出现了1次，而我不小心连续输入了20次啊，那么该分数会偏高，甚至高于其他有关键字的，例如搜出只有一条是"苹果啊啊...x20"，其他索引全是"啊啊啊x20"，最终覆盖掉我们需要的信息，此时引出了TF-IDF ——解决了词条权重问题

2-TF-IDF

就是在TF的基础上，乘一个IDF

IDF（Inverse Document Frequency）

N:总文档数

n:出现次数

为了防止一次都没出现n为0的情况，我们给分母+1（平滑操作）

eg

此时我们更想要看到的Lucence权重更大

最终式子

3-BM25

BM（Best Matching）

第一次修改

在原先的TF-IDF将TF做了修改

在传统的TF值理论可以无限大增加一个常量k做出一个限制两者公式

传统的tf（出现次数）增加时TF Score增加幅度很大，甚至无限
BM25的TF Score会被限制在0~k+1间，最终趋于水平，k=1.2，使用者可修改

第二次修改

引入了平均文档长度概念，探究单个文档长度和平均所有文档长度间比值对TF Score的影响
b：常量。决定L对评分的的影响
不同L，对词频TF Score影响的走势
文档越短，斜率（区域上限的速度）越大，反之慢 eg：
- 词少的文档，匹配词少，快速确定相关性 词少，文档长度小，L小，L在分母，分母小，整体大
- 打个比方。大篇幅内容，1本书内容，需匹配大量内容才知道重点
这里的参数b就是决定了L对评分的影响力度

最终公式

优势

可调节参数k，b——灵活

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Zww0891 CSDN认证博客专家 CSDN认证企业博客

码龄2年

111: 原创

2713: 周排名

1万+: 总排名

6万+: 访问

: 等级

2255: 积分

1083: 粉丝

1119: 获赞

18: 评论

858: 收藏

私信

关注

热门文章

分类专栏

前端 38篇
JavaScript 18篇
服务器 26篇
运维 5篇
后端 4篇
spring-boot 28篇
java 29篇
docker 1篇
Vue 20篇
BUG 11篇
异常捕获 1篇
Spring-Cloud 2篇

最新评论

黑马程序员pink讲前端，第一天
2401_87539274: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
linux系统管理面板1panel
CSDN-Ada助手: 不知道 CS入门技能树是否可以帮到你：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
linux系统管理面板1panel
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
docker部署NginxProxyManager
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
docker镜像地址
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。