【IR Information Research】信息检索多样化方面常见的metrics

信息检索(IR)旨在从海量数据中找到相关结果,面对query的不确定性,多样化任务至关重要。本文讨论了多样化评估指标α-DCG和ERR-IA,指出它们存在的问题——无法直接用于深度学习模型优化。通过sigmoid函数近似离散变量,实现了metrics的连续化。最后,提出基于Gumbel分布的随机化损失函数,适用于多query场景的深度学习优化。
摘要由CSDN通过智能技术生成

IR是什么

粗略的理解就是在海量的信息中抓取有用的那几个,最常见的应用就是搜索引擎。百度存有千亿级别的网页,而根据用户的query需要在第一页给出最符合要求的那些。
这个领域中目前的方法可以分为两类:implicit & explicit。前者主要关注于在一堆文档中进行分类,后者关注于query的信息。当然还有hybrid的一些研究方法。
在优化返回给用户的信息时,由于query通常有着不确定性,比如我搜索"apple",有可能是想卖个肾,也可能是想吃点水果。这个时候理想的返回结果应该将二者都囊括进来。这就是今天提的多样化任务。

Metrics

  1. α − D C G \alpha-DCG αDCG在这里插入图片描述
    对于一个已经排好的序列与qeury,首先把query分为m个可能的sub-topic,类似苹果公司与水果苹果。有n个网页根据某种算法排了个序, r i r_i ri指第i篇文档的排名(rank), y i l y_{il} yil表示第i篇网页是否涵盖了第l个sub-topic, c i l c_{il} cil表示排名靠前的文档中有多少对sub-topic l已经覆盖到了,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值