ES的TF-IDF

2 篇文章 0 订阅
本文探讨了如何通过TF-IDF算法改进数据库查询,以实现更精准的内容匹配和排序。TF-IDF计算公式考虑了词频和逆文档频率,使得搜索结果更注重内容的相关性。通过调整计算因子,可以灵活控制排序指标的权重,适应不同的业务需求。例如,在浏览量基础上结合TF-IDF,可以实现更智能的排序策略,同时确保内容的多样性。
摘要由CSDN通过智能技术生成

需求: 对业务某实体进行多条件匹配排序,属性有实体名称、实体浏览量…

db做法 like then order by viewCount
死板 名称相关性无法体现 搜出来的只是包含 有多包含?
TF-IDF = TF * IDF
TF:term frequency词频
	某文本1000词  'JAVA'匹配到10个  词频为TF = 10 / 1000 = 0.01
IDF:inverse document frequency逆向文件频率 
	1000个文本 'JAVA'在10个文本中出现过  IDF = 10为底1000的对数 = 3
TF-IDF = 3 * 0.01 = 0.03
什么用?替换like then order by viewCount 为TF-IDF + 计算因子 * viewCount 动动脑筋 此时内容相关性不仅有了体现 而且你可以修改计算因子来随心所欲的控制最终排序结果所依赖不同排序指标的比重
计算因子怎么定 正常状态下一个词的TD-IDF一定是变化的,只要你的es存在修改,那么这个因子怎么定一个初始值,最简单的是抽取排序指标的极值、中位数获取TF-IDF,同时预估其余指标的极值来设定,尽可能的让每一个指标的参与排序的比重去符合自己的预期
其中指标如果属于爆发、平缓增量大的情况,可以利用ln函数来平衡 一般是这样做的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值