#今日论文推荐# 稠密检索模型的zero-shot能力究竟如何？

最新推荐文章于 2024-04-30 20:05:58 发布

wwwsxn

最新推荐文章于 2024-04-30 20:05:58 发布

阅读量209

点赞数

分类专栏：深度学习文章标签： transformer 深度学习计算机视觉

原文链接：https://www.aminer.cn/research_report/626b58b87cb68b460fabbf62?download=false

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# 稠密检索模型的zero-shot能力究竟如何？

随着预训练语言模型在自然语言处理领域的蓬勃发展，基于预训练语言模型的稠密检索（dense retrieval）近年来也变成了主流的一阶段检索（召回）技术，在学术界和工业界均已经得到了广泛的研究。与传统的基于字面匹配的稀疏检索（sparse retrieval）模型相比，稠密检索模型通过学习低维的查询和文档向量来实现语义级别的检索，能够更好地理解用户的查询意图，返回能够更好地满足用户信息需求的结果。
通常情况下，训练一个优秀的稠密检索模型离不开大规模的人工标注数据，然而，在很多应用场景和业务问题上，这种与领域相关的大规模标注数据非常难以获得，因此稠密检索模型的零样本域外泛化能力（zero-shot OOD generalizability）就变得非常重要。在实际应用中，不同领域之间通常存在较大差异，这种zero-shot能力直接影响着稠密检索模型在现实场景中的大规模应用。相比之下，传统的BM25可以简单有效地部署在不同场景下，如果稠密检索模型无法在现实场景中取得比BM25显著优异的性能，则稠密检索模型的应用价值将会大打折扣。
目前，已经有一些工作开始研究如何评估稠密检索模型的zero-shot泛化能力以及提高该能力的方法。现有的一些研究指出，稠密检索模型的zero-shot能力非常有限，在某些场景下甚至无法超越传统的BM25算法。然而，现有研究的实验设置相对比较单一，大多关注于模型在不同目标领域上的测试结果，而没有关注不同的源域设置会如何影响模型的zero-shot泛化性能，从而导致我们并不清楚是什么因素影响了稠密检索模型的零样本泛化能力。
因此，本文针对zero-shot场景下的稠密检索模型泛化能力进行了较为深入的研究，旨在理解何种因素影响了稠密检索模型的zero-shot泛化能力，以及如何改善这些因素从而提升模型的zero-shot泛化能力。为此，我们设计了充分的实验，从源域query分布、源域document分布、数据规模、目标域分布偏移程度等几个方面进行了全面的分析，并发现了不同因素对模型zero-shot泛化能力的影响。另外，我们还系统梳理了近期出现的几种提升zero-shot泛化性能的优化策略，并指出每种策略是如何影响上述几个因素从而实现改进的。

论文题目：A Thorough Examination on Zero-shot Dense Retrieval
详细解读：https://www.aminer.cn/research_report/626b58b87cb68b460fabbf62?download=falsehttps://www.aminer.cn/research_report/626b58b87cb68b460fabbf62?download=false
AMiner链接：https://www.aminer.cn/?f=cs

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
#今日论文推荐# 稠密检索模型的zero-shot能力究竟如何？

#今日论文推荐# 稠密检索模型的zero-shot能力究竟如何？随着预训练语言模型在自然语言处理领域的蓬勃发展，基于预训练语言模型的稠密检索（dense retrieval）近年来也变成了主流的一阶段检索（召回）技术，在学术界和工业界均已经得到了广泛的研究。与传统的基于字面匹配的稀疏检索（sparse retrieval）模型相比，稠密检索模型通过学习低维的查询和文档向量来实现语义级别的检索，能够更好地理解用户的查询意图，返回能够更好地满足用户信息需求的结果。通常情况下，训练一个优秀的稠密检索模型离不
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。