双塔模型没效果了?请加大加粗!

研究表明,双塔模型在特定领域的召回任务中表现不佳,常被认为仅使用最后一层点积限制了其能力。然而,《Large Dual Encoders Are Generalizable Retrievers》论文提出,通过扩展双塔网络容量,尤其是使用Generalizable T5-based dense Retrievers (GTR),能显著提升跨域召回任务的效果。实验在BEIR数据集上展示了GTR的优越性。论文采用T5模型,通过增加参数量并保持768维输出,证明了增强encoder而不改变点积限制的有效性。
摘要由CSDN通过智能技术生成

很多研究表明,双塔在一个域表现不错,在其他域表现不好了。一个广泛被认同的观点就是双塔仅仅用了最后一层的点积算分,这限制了模型的召回能力。这篇论文<Large Dual Encoders Are Generalizable Retrievers>就否认了这个观点,通过扩展双塔的网络,就能提升模型对各个召回任务的效果,特别是那些跨域的。实验结果表明,该论文提出的Generalizable T5-based dense Retrievers(GTR)在BEIR数据集上显著优于现存的一些召回模型。

158efc1339b3ce1d0e6df7b97d747b16.png

在query和document的召回任务中,他们分别被encode到同一空间中,然后使用近邻检索给query高效的找到对应document。很多论文都表示,点积(或是cos相似度)不能够有效抓住语意相关性,这篇论文并不赞同。值得注意的是,扩展双塔网络的capacity和预训练模型(像是bert)的扩展不同,因为有瓶颈层(用于点积的那层)的存在。提升encoder的capacity却不能改变点积限制了query和document交互信息的现实。为了验证这个假设,该文使用了T5模型,使得encoders可以有50亿的参数,并固定顶层为768维度如下图所示。最后评估了GTR在BEIR benchmark上zero shot的效果,在9个域和18个召回任务的表现是让人吃惊的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值