paper解读：Bi-Directional Attention Flow For Machine Comprehension

最新推荐文章于 2022-11-16 15:26:23 发布

原创最新推荐文章于 2022-11-16 15:26:23 发布 · 603 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理

paper解读专栏收录该内容

10 篇文章

订阅专栏

本文介绍了一种基于双向注意力机制的阅读理解模型，该模型在ICLR2017发表，已被广泛引用。通过结合query和context的多级特征，模型能够更准确地理解和定位答案。论文详细讲解了模型的六大部分，包括字符嵌入、词嵌入、上下文嵌入、注意力流、建模和输出层。双向注意力流层通过计算query和context之间的相似度矩阵，实现query到context和context到query的注意力，从而捕捉关键信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于双向注意力的阅读理解（ICLR2017，引用800多，入门阅读理解可以看这篇）
paper: https://arxiv.org/abs/1611.01603
code: https://github.com/allenai/bi-att-flow

模型框架

模型主要框架如下图所示：
在这里插入图片描述

包括六个部分：
Character Embedding Layer：使用character-level CNNs将词转换成向量；
Word Embedding Layer：使用预训练的word embedding模型将词转换成向量，如glove等；
Contextual Embedding Layer：利用周围单词的上下文提示来完善单词的嵌入，如Bi-LSTM。同时应用于query和context;
Attention Flow Layer:将query向量和context向量耦合，包括query2context attention和context2query attention；
Modeling Layer：使用RNN模型学习上下文表示；
Output Layer：得到query的答案。
值得注意的是，前三步在不同粒度下计算query和context的特征，这有点像计算机视觉领域的CNN中的多阶段特征计算的过程。

双向注意力流

下面具体讲一下Attention Flow Layer.
在这一步中，作者计算两个方向的attention：从context到query以及query到context。这两个方向的attention都基于相同的相似度矩阵 $S∈RT×JS\in R^{T\times J}$ ，其中H表示context embedding，U表示query embedding。 $S_{t,j}$ 表示context的第t个时刻和query的第j个时刻的相似度，具体如下：
$St,j=α(H:t,U:j)∈RS_{t,j}=\alpha(H_{:t},U_{:j})\in R$
其中， $α\alpha$ 是可训练标量， $H∈R2d×T,U∈R2d×JH\in R^{2d\times T}, U\in R^{2d\times J}$ ， $H_{:t}$ 表示H的第t列，即第t个时刻的向量，同样， $U_{:j}$ 表示U的第j列，即第j个时刻的向量.可选的， $α(h,u)=wST[h;u;h∘u]\alpha(h,u)=w^T_S[h;u;h\circ u]$ ， $wST∈R6dw^T_S\in R^{6d}$ 是一个可训练权重向量。

context-to-query attention

context-to-query(C2Q)目的是得到context的每个词中，与query各个词的相关性。
令 $at∈RJa_t\in R^J$ 表示第t个context word与query各个词的attention权重，其中 $∑jatj=1\sum_ja_{tj}=1$ (这里应该是所有j的和为1，作者写的是all t，应该是写错了)。 $at=softmax(St:)∈RJa_t=softmax(S_{t:})\in R^J$ ，因此 $U~:t=∑jatjU:j\widetilde U_{:t}=\sum_ja_{tj}U_{:j}$

query-to-context attention

query-to-context attention(Q2C)目的是得到query的每个词中，与其最相似的context word，这是回答query的一个重要参考。
首先，使用 $b=softmax(maxcol(S))∈RTb=softmax(max_{col}(S))\in R^T$ 获得context words的attention权重。其次， $h~=∑tbtH:t∈R2d\widetilde h=\sum_tb_tH_{:t}\in R^{2d}$ .此向量表示上下文中相对于query而言最重要的单词的加权和. $h~\widetilde h$ 在列维度上复制T次得到 $H~∈R2d×T\widetilde H\in R^{2d\times T}$ .
最后，对上述向量进行拼接得到 $G:t=β(H:t,U~:t,H~:t)∈RdGG_{:t}=\beta (H_{:t},\widetilde U_{:t},\widetilde H_{:t})\in R^{d_G}$ ，特别地，可令 $β(h,u~,h~)=[h;u~,h∘u~;h∘h~]\beta(h,\widetilde u,\widetilde h)=[h;\widetilde u,h\circ \widetilde u;h\circ \widetilde h]$

Modeling Layer

将上一步的G作为输入，使用bi-LSTM得到输出 $M∈R2d×TM\in R^{2d\times T}$ 。

Output Layer

QA任务需要模型从paragraph中找到一个子序列来作为query的答案。因此,output layer的目的是预测开始索引和结束索引。
$p1=softmax(wp1T[G;M])p^1=softmax(w^T_{p^1}[G;M])$
$p2=softmax(wp2T[G;M])p^2=softmax(w^T_{p^2}[G;M])$
training loss使用两个索引的交叉熵损失的和，即
$L(θ)=−1N∑iNlog(pyi11)+log(pyi22)L(\theta)=-\frac{1}{N}\sum^N_ilog(p^1_{y^1_i})+log(p^2_{y^2_i})$
测试阶段：当 $pk1pl2p^1_kp^2_l$ 取得最大值时，使用answer span(k,l)作为query的答案，其中 $k≤lk\leq l$