#今日论文推荐# 稠密检索模型的zero-shot能力究竟如何?

#今日论文推荐# 稠密检索模型的zero-shot能力究竟如何?

随着预训练语言模型在自然语言处理领域的蓬勃发展,基于预训练语言模型的稠密检索(dense retrieval)近年来也变成了主流的一阶段检索(召回)技术,在学术界和工业界均已经得到了广泛的研究。与传统的基于字面匹配的稀疏检索(sparse retrieval)模型相比,稠密检索模型通过学习低维的查询和文档向量来实现语义级别的检索,能够更好地理解用户的查询意图,返回能够更好地满足用户信息需求的结果。
通常情况下,训练一个优秀的稠密检索模型离不开大规模的人工标注数据,然而,在很多应用场景和业务问题上,这种与领域相关的大规模标注数据非常难以获得,因此稠密检索模型的零样本域外泛化能力(zero-shot OOD generalizability)就变得非常重要。在实际应用中,不同领域之间通常存在较大差异,这种zero-shot能力直接影响着稠密检索模型在现实场景中的大规模应用。相比之下,传统的BM25可以简单有效地部署在不同场景下,如果稠密检索模型无法在现实场景中取得比BM25显著优异的性能,则稠密检索模型的应用价值将会大打折扣。
目前,已经有一些工作开始研究如何评估稠密检索模型的zero-shot泛化能力以及提高该能力的方法。现有的一些研究指出,稠密检索模型的zero-shot能力非常有限,在某些场景下甚至无法超越传统的BM25算法。然而,现有研究的实验设置相对比较单一,大多关注于模型在不同目标领域上的测试结果,而没有关注不同的源域设置会如何影响模型的zero-shot泛化性能,从而导致我们并不清楚是什么因素影响了稠密检索模型的零样本泛化能力。
因此,本文针对zero-shot场景下的稠密检索模型泛化能力进行了较为深入的研究,旨在理解何种因素影响了稠密检索模型的zero-shot泛化能力,以及如何改善这些因素从而提升模型的zero-shot泛化能力。为此,我们设计了充分的实验,从源域query分布、源域document分布、数据规模、目标域分布偏移程度等几个方面进行了全面的分析,并发现了不同因素对模型zero-shot泛化能力的影响。另外,我们还系统梳理了近期出现的几种提升zero-shot泛化性能的优化策略,并指出每种策略是如何影响上述几个因素从而实现改进的。

论文题目:A Thorough Examination on Zero-shot Dense Retrieval
详细解读:https://www.aminer.cn/research_report/626b58b87cb68b460fabbf62?download=falseicon-default.png?t=M3K6https://www.aminer.cn/research_report/626b58b87cb68b460fabbf62?download=false
AMiner链接:https://www.aminer.cn/?f=cs

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值