ColBERT(2020SIGIR)

在这里插入图片描述

 ColBERT: Eficient and Efective Passage Search via Contextualized Late Interaction over BERT

1.介绍

预训练的LM在IR上计算成本太高。本文考虑降低计算成本的同时,保证检索性能,并且结合基于表示和交互的模型(如下图 d d d)。
预训练LM带来的显著提升是以计算成本为代价的:下图展示了各个检索模型的计算成本,所有的model在Tesla V100 GPU上对MS MARCO上Ranking
在这里插入图片描述
为了协调信息检索中的效率和语境化,作者提出了 C C C o o o l l l B B B E E E R R R T T T:基于上下文化的后期交互的排序模型–contextualized late interaction over BERT 。ColBERT提出了一种新的后期交互范式,用于估计查询 q q q和文档 d d d之间的相关性。在后期交互下, q q q d d d被分别编码到两组上下文嵌入中,并且相关性是使用两组之间廉价且 p p p r r r u u u n n n i i i n n n g g g- f f f r r r i i i e e e n n n d d d l l l y y y的计算来评估的——也就是说,快速计算能够在不穷举评估每个可能的候选项的情况下进行排名。整体框架看下图右👉IR模型对比

IR模型对比:
在这里插入图片描述
( d d d):每个查询 embedding 都通过MaxSim操作符与所有文档嵌入交互,MaxSim操作符计算最大相似度(例如cos),并且这些操作符的标量输出在查询项之间求和。这个范例允许 C C C o o o l l l B B B E E E R R R T T T可以利用基于LM的深度表示,同时将编码文档的成本转为offline,并在所有已排序文档中一次性摊销编码查询的成本。 此外,它使Colbert能够利用向量相似度搜索索引(FAISS)直接从大型文档集中检索前 k k k个结果,从而大大改善了仅基于术语的re-rank模型的召回率 。

2. Architecture

在这里插入图片描述
一个query encoder f Q f_Q fQ,编码query q q q E q E_q Eq
一个document encoder f D f_D f

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值