Rocchio算法

最新推荐文章于 2023-05-14 14:44:35 发布

原创

最新推荐文章于 2023-05-14 14:44:35 发布 · 1.7w 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#文档 #算法 #ide #优化 #扩展

Rocchio算法是一种相关反馈技术，用于优化查询向量。在已知部分相关和不相关文档的情况下，通过调整原始查询向量，使其接近相关文档的质心向量，远离不相关文档的质心向量。公式中包含原始查询向量、相关文档集合和不相关文档集合的权重。这种技术能提高信息检索的召回率和正确率，尤其在重召回率场景下。参数α、β和γ控制着查询向量的更新，实际应用中常倾向于正反馈，即γ通常小于β。Ide dec-hi公式被研究认为在性能上表现稳定。

Rocchio算法是IR中通过查询的初始匹配文档对原始查询进行修改以优化查询的方法。Rocchio 算法是相关反馈实现中的一个经典算法，它提供了一种将相关反馈信息融到向量空间模型的方法。基本理论：假定我们要找一个最优查询向量q ，它与相关文档之间的相似度最大且同时又和不相关文档之间的相似度最小。若Cr表示相关文档集，Cnr表示不相关文档集，那么我们希望找到的最优的q 是：

sim 函数用于计算相似度。采用余弦相似度计算时，能够将相关文档与不相关文档区分开的最优查询向量为：

这就是说，最优的查询向量等于相关文档的质心向量和不相关文档的质心向量的差。然而，这个发现并没有什么意义，因为检索本来的目的就是要找相关文档，而所有的相关文档集事先却是未知的。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。