DC-BERT

最新推荐文章于 2021-11-19 00:13:38 发布

我黑切呢**

最新推荐文章于 2021-11-19 00:13:38 发布

阅读量415

点赞数 2

分类专栏： IR-QA

本文链接：https://blog.csdn.net/qq_43390809/article/details/113094813

版权

IR-QA 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

在这里插入图片描述

DC-BERT: DECOUPLING QUESTION AND DOCUMENT FOR EFFICIENT CONTEXTUAL ENCODING

Motivation

关注预训练的LM应用于open-domain的无法处理高吞吐量的传入问题。

DC-BERT

在这里插入图片描述
$B$ $E$ $R$ $T$ 的较低层编码更多的局部句法信息，如词性标签，而较高层往往依赖于更广泛的上下文来捕捉更复杂的语义。 $D$ $C$ $B$ $E$ $R$ $T$ 受这个启发，它将 $B$ $E$ $R$ $T$ 的较低层解耦到本地上下文(question和document)，然后在独立编码的基础上应用 $T$ $r$ $a$ $n$ $s$ $f$ $o$ $r$ $m$ $e$ $r$ 层，以实现question-document的交互。如图1所示：

$D$ $C$ $B$ $E$ $R$ $T$ 有两个独立的 $B$ $E$ $R$ $T$ 模型:一个在线 $B$ $E$ $R$ $T$ 只对question编码一次，一个离线 $B$ $E$ $R$ $T$ 预编码所有documnent并缓存它们的编码。启用缓存后， $D$ $C$ $B$ $E$ $R$ $T$ 可以立即读出任何documnent的编码。question和document的解耦编码随后被馈送到具有question和document交互的global position 和 type embeddings 的 $T$ $r$ $a$ $n$ $s$ $f$ $o$ $r$ $m$ $e$ $r$ 层，这产生了(question-document)对的上下文编码。

$D$ $C$ $B$ $E$ $R$ $T$ 可以应用于documnent检索器和阅读器。这项工作重点研究如何加快检索器的速度，因为每个问题检索的文档数量可能相当大，而馈入阅读器模块的文档数量有限。因此，解决文档检索器的效率问题更为重要。

METHODOLOGY

$D$ $C$ $B$ $E$ $R$ $T$ 的整体架构(图1)包括一个用于解耦编码的 $d$ $u$ $a$ $l$ $-$ $B$ $E$ $R$ $T$ 组件，一个用于问题-文档交互的 $T$ $r$ $a$ $n$ $s$ $f$ $o$ $r$ $m$ $e$ $r$ 组件，以及一个用于文档重新排序的分类器组件。

Dual-BERT component.

两个独立的 $B$ $E$ $R$ $T$ 对question和document分别encode：
question： $T$ $\in$ $R$ $^N$ $^×$ $^d$
document： $T^‘$ $\in$ $R$ $^M$ $^×$ $^d$
并且对document的encode可以转移至offline，降低计算成本：
在这里插入图片描述
线下encode则计算成本：

另外，作者认为，question和document缺乏交互会导致IR性能下降，所以设计了下列的Transformer层进行交互。

Transformer component.

一个全局位置embedding对串联的question-docuent编码序列中位置 $P_i$ 处的token进行重新编码(总长度：N+M+3,包括 [CLS] 和 [SEP] token):
一个全局tpye embedding去区分question和document的token：

全局位置和type embedding都是由来自预先训练的 $B$ $E$ $R$ $T$ 的位置和句子嵌入初始化的，并且将在训练期间更新。这些额外的嵌入是在问题和文档编码的基础上添加的。然后将这三个embedding $f$ $e$ $d$ $T$ $r$ $a$ $n$ $s$ $f$ $o$ $r$ $m$ $e$ $r$ ( $K$ 层)，它是由 $B$ $E$ $R$ $T$ 的最后 $K$ 层初始化。

Classifier component.

取最后一层 $T$ $r$ $a$ $n$ $s$ $f$ $o$ $r$ $m$ $e$ $r$ 的[CLS]位置输出送到 $M$ $L$ $P$ 层：
在这里插入图片描述
o表示question的，o’表示document的。 $M$ $L$ $P$ 的参数由优化交叉熵函数更新：

3 EXPERIMENTS

Benchmark datasets.

SQuAD
Natural Questions

Evaluation metrics.

比较单个GPU上检索的速度
P@N：答案跨度出现在前N个文档之一中的问题的百分比
PBT@N：用于衡量文档re-rank的语义检索能力，即包含答案跨度的前N个文档中至少有一个不在TF-IDF前N个文档中的问题的百分比。换句话说，这个新的度量标准衡量了检索器在TF-IDF检索器之外的能力(越高越好)
PTB@N：这是前N个TF-IDF中至少有一个检索到包含答案跨度的文档不在检索者的前N个文档中的问题的百分比。该指标衡量检索器保留TF-IDF检索器返回的相关文档的能力(越低越好)。
对于下游的QA任务，采用EM（exact match）得分。

Implementation details.

预训练的 $B$ $E$ $R$ $T$ 用于doc-re-rank，预训练的 $B$ $E$ $R$ $T$ $-$ $w$ $w$ $m$ (whole word masking)用于下游QA。对于标准的TF-IDF检索，使用DrQA的TF-IDF检索器收集80份doc进行SQuAD的评估。我们选择按检索器排序的前10个文档输入阅读器模块。
$T$ $r$ $a$ $n$ $s$ $f$ $o$ $r$ $m$ $e$ $r$ 层数 $K$ 为1。
learning rate ：4e-5
Adam 优化器
对于最后的分类层，使用2层带有tanh（·）激活函数的MLP

看看结果

表1:两个基准数据集的性能比较。
在这里插入图片描述
表2，PBT @ 10和PTB@10中的检索器性能。

消融

在这里插入图片描述
DC-BERT-Linear：用线性曾取代Transformer层。
DC-BERT-LSTM：使用LSTM和两层线性层取代Transformer层。
Transformer层数的影响：

层数增加，性能有所提升，但是检索速度降低。

检索文档的数量影响：
在这里插入图片描述
$D$ $C$ $B$ $E$ $R$ $T$ 始终由于其他 $B$ $E$ $R$ $T$ 变体，再检索文档较小时尤为明显。

我黑切呢**

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DC-BERT

DC-BERT: DECOUPLING QUESTION AND DOCUMENT FOR EFFICIENT CONTEXTUAL ENCODINGMotivation关注预训练的LM应用于open-domain的无法处理高吞吐量的传入问题。DC-BERTBBBEEERRRTTT的较低层编码更多的局部句法信息，如词性标签，而较高层往往依赖于更广泛的上下文来捕捉更复杂的语义。DDDCCCBBBEEERRRTTT受这个启发，它将BBBEEERRRTTT的较低层解耦到本地上下文(question和.
复制链接

扫一扫

专栏目录