#今日论文推荐# 稠密检索模型的zero-shot能力究竟如何?

#今日论文推荐# 稠密检索模型的zero-shot能力究竟如何?

随着预训练语言模型在自然语言处理领域的蓬勃发展,基于预训练语言模型的稠密检索(dense retrieval)近年来也变成了主流的一阶段检索(召回)技术,在学术界和工业界均已经得到了广泛的研究。与传统的基于字面匹配的稀疏检索(sparse retrieval)模型相比,稠密检索模型通过学习低维的查询和文档向量来实现语义级别的检索,能够更好地理解用户的查询意图,返回能够更好地满足用户信息需求的结果。
通常情况下,训练一个优秀的稠密检索模型离不开大规模的人工标注数据,然而,在很多应用场景和业务问题上,这种与领域相关的大规模标注数据非常难以获得,因此稠密检索模型的零样本域外泛化能力(zero-shot OOD generalizability)就变得非常重要。在实际应用中,不同领域之间通常存在较大差异,这种zero-shot能力直接影响着稠密检索模型在现实场景中的大规模应用。相比之下,传统的BM25可以简单有效地部署在不同场景下,如果稠密检索模型无法在现实场景中取得比BM25显著优异的性能,则稠密检索模型的应用价值将会大打折扣。
目前,已经有一些工作开始研究如何评估稠密检索模型的zero-shot泛化能力以及提高该能力的方法。现有的一些研究指出,稠密检索模型的zero-shot能力非常有限,在某些场景下甚至无法超越传统的BM25算法。然而,现有研究的实验设置相对比较单一,大多关注于模型在不同目标领域上的测试结果,而没有关注不同的源域设置会如何影响模型的zero-shot泛化性能,从而导致我们并不清楚是什么因素影响了稠密检索模型的零样本泛化能力。
因此,本文针对zero-shot场景下的稠密检索模型泛化能力进行了较为深入的研究,旨在理解何种因素影响了稠密检索模型的zero-shot泛化能力,以及如何改善这些因素从而提升模型的zero-shot泛化能力。为此,我们设计了充分的实验,从源域query分布、源域document分布、数据规模、目标域分布偏移程度等几个方面进行了全面的分析,并发现了不同因素对模型zero-shot泛化能力的影响。另外,我们还系统梳理了近期出现的几种提升zero-shot泛化性能的优化策略,并指出每种策略是如何影响上述几个因素从而实现改进的。

论文题目:A Thorough Examination on Zero-shot Dense Retrieval
详细解读:https://www.aminer.cn/research_report/626b58b87cb68b460fabbf62?download=falseicon-default.png?t=M3K6https://www.aminer.cn/research_report/626b58b87cb68b460fabbf62?download=false
AMiner链接:https://www.aminer.cn/?f=cs

一般来说,语言模型旨在对于人类语言的内在规律进行建模,从而准确预测 词序列中未来(或缺失)词或词元(Token)的概率。根据所采用技术方法的不同, 针对语言模型的研究工作可以分为以下四个主要发展阶段: • 统计语言模型(Statistical Language Model, SLM). 在 20 世纪 90 年代兴起的 统计语言模型 [4, 5] 是基于统计学习方法研发的。具体来说,统计语言模型使用马 尔可夫假设(Markov Assumption)来建立语言序列的预测模型,通常是根据词序 列中若干个连续的上下文单词来预测下一个词的出现概率,即根据一个固定长度 的前缀来预测目标单词。具有固定上下文长度 𝑛 的统计语言模型通常被称为 𝑛 元 (𝑛-gram)语言模型,如二元或三元语言模型。统计语言模型被广泛应用于信息检索 (Information Retrieval, IR)和自然语言处理(Natural Language Processing, NLP)等领 域的早期研究工作。对于高阶统计语言模型来说,随着阶数 𝑛 的增加,需要估计的 转移概率项数将会指数级增长,经常会受到“维数灾难”(Curse of Dimensionality) 的困扰。为了缓解数据稀疏问题,需要设计专门的语言模型平滑策略,如回退估 计(Back-off Estimation)和古德-图灵估计(Good-Turing Estimation)。然而平滑方 法对于高阶上下文的刻画能力仍然较弱,无法精确建模复杂的高阶语义关系。 • 神经语言模型(Neural Language Model, NLM). 神经语言模型 [6, 7] 使用神经 网络来建模文本序列的生成,如循环神经网络(Recurrent Neural Networks, RNN)。图 1.1 语言模型的发展历程 灵奖获得者 Yoshua Bengio 在一项早期工作中 [6] 引入了分布式词表示(Distributed Word Representation)这一概念,并构建了基于聚合上下文特征(即分布式词向量) 的目标词预测函数。分布式词表示使用低维稠密向量来表示词汇的语义,这与基 于词典空间的稀疏词向量表示(One-Hot Representation)有着本质的不同,能够刻 画更为丰富的隐含语义特征。同时,稠密向量的非零表征对于复杂语言模型的搭 建非常友好,能够有效克服统计语言模型中的数据稀疏问题。分布式词向量又称为 “词嵌入”(Word Embedding)。这种基于隐含语义特征表示的语言建模方法为自然 语言处理任务提供了一种较为通用的解决途径。在这一系列工作中,word2vec [8, 9] 是一个具有代表性的词嵌入学习模型,它构建了一个简化的浅层神经网络来学 习分布式词表示,所学习到的词嵌入可以用作后续任务的语义特征提取器,在自 然语言处理任务中得到了广泛使用,取得了显著的性能提升。这些创新性的研究 工作将语言模型用于文本表示学习(超越了原始的词序列建模目标),在自然语言 处理领域产生了重要影响。概述上文
最新发布
03-11
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值