【IR Information Research】信息检索多样化方面常见的metrics

最新推荐文章于 2024-10-01 23:00:34 发布

Petersburg

最新推荐文章于 2024-10-01 23:00:34 发布

阅读量1.2k

点赞数

文章标签：机器学习深度学习搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Petersburg/article/details/123734874

版权

信息检索（IR）旨在从海量数据中找到相关结果，面对query的不确定性，多样化任务至关重要。本文讨论了多样化评估指标α-DCG和ERR-IA，指出它们存在的问题——无法直接用于深度学习模型优化。通过sigmoid函数近似离散变量，实现了metrics的连续化。最后，提出基于Gumbel分布的随机化损失函数，适用于多query场景的深度学习优化。

摘要由CSDN通过智能技术生成

文章目录

IR是什么
Metrics
存在的问题&解决方案
将metrics loss化
Reference

IR是什么

粗略的理解就是在海量的信息中抓取有用的那几个，最常见的应用就是搜索引擎。百度存有千亿级别的网页，而根据用户的query需要在第一页给出最符合要求的那些。
这个领域中目前的方法可以分为两类：implicit & explicit。前者主要关注于在一堆文档中进行分类，后者关注于query的信息。当然还有hybrid的一些研究方法。
在优化返回给用户的信息时，由于query通常有着不确定性，比如我搜索"apple"，有可能是想卖个肾，也可能是想吃点水果。这个时候理想的返回结果应该将二者都囊括进来。这就是今天提的多样化任务。

Metrics

$\alpha-DCG$
对于一个已经排好的序列与qeury，首先把query分为m个可能的sub-topic，类似苹果公司与水果苹果。有n个网页根据某种算法排了个序， $r_i$ 指第i篇文档的排名(rank)， $y_{il}$ 表示第i篇网页是否涵盖了第l个sub-topic， $c_{il}$ 表示排名靠前的文档中有多少对sub-topic l已经覆盖到了，

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Petersburg CSDN认证博客专家 CSDN认证企业博客

码龄6年

43: 原创

54万+: 周排名

232万+: 总排名

9万+: 访问

: 等级

512: 积分

16: 粉丝

61: 获赞

22: 评论

146: 收藏

私信

关注

热门文章

分类专栏

pytorch 10篇
python 6篇
调参 1篇
Attention 2篇
文本分析 3篇
sklearn 1篇
scipy学习 1篇
python问题集锦 3篇

最新评论

【情感分析 PyTorch】RNN于IMDB数据集上的表示
Guan_God: 博主，最后的测试是怎样进行的
级数收敛、cesaro可和以及Abel可和的关系
♚放晴♛~: 这整个证明似乎有一些问题。你要得到推论一，重要的前提是S_n的发散速度要比r^n的收敛速度慢，或者最简单的假设S存在。但是你在后面的证明中只是假设了其Cesaro和存在，所以并不能直接使用推论。或者是我有哪里考虑不周的地方。请指教。
【selenium (chrome) + python】n级引用/被引用文献爬取 & 爬虫库介绍
Petersburg: 感谢催更hhhh，我整理一下发上来，内容比较多
粒子群算法 PSO 讲解 + python源码
Petersburg: 这个是我参照一个视频的讲解复现的
【PyTorch 计算图】requires_grad=True的leaf variable及其设计逻辑
Petersburg: 这种需要梯度的参数基本都是模型内部的参数，比如一个矩阵，或者一个RNN的参数，这些都是不需要手动设定的，直接调用已有的东西就好，我们在日常使用中是不应该去积极创建具有梯度的东西的，这些在逻辑上应该只在计算的时候或者模型内部存在

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。