Bidirectional attention flow for machine comprehension论文笔记-CSDN博客

本文链接：https://blog.csdn.net/u014156276/article/details/103392961

##Bidirectional attention flow for machine comprehension论文笔记

attention可以让系统重点关注一个部分，这和QA相关。之前的attention的特征有：计算特征的权值是为了提取上下文中最相关的信息；attention的权值是变化的，是前一个时间点向量的函数；通常是单向的。

BIDAF用到了字符级，单词级，以及上下文级别的embedding，是细粒度的。主要的提高：

attention层不是用来把上下文归结为一个固定大小的向量，而是每个时间点都会计算attention，attention和先前层的表示都会在模型里向后流动，这可以减少过早的总结带来的信息损失
内存更少，每个时间计算attention是现在的问题+上下文的函数，而不是直接依赖于先前的attention，这可以减小attention和模型层的计算量。这样可以使得模型层专注于理解问题。
双向的attention提供互补的信息

模型包含六层：

字符级embedding，用字符级CNN把每个单词映射成一个向量。用 $\{x_1,x_2,\cdots,x_n\}$ 和 $\{q_1,q_2,\cdots,q_n\}$ 表示context和query中的单词，用Kim的方法使用CNN获得每个单词的字符级embedding，这些embedding vector的大小就是CNN的input channel，然后可以做卷积，max-pool池化，得到固定长度的vector。
单词级embedding，用预训练的模型(glove)，把每个单词word映射成向量。character和word embedding连接起来，跑一个两层的highway network(没看过)，得到两个d维向量，实际上就是一个 $d\times T$ 的矩阵 $X$ (context)和一个 $d\times J$ 维的矩阵 $Q$ (query)，其中 $T$ 和 $J$ 是context和query的长度。
上下文embedding，从上下文单词中提取线索(cue)优化word embedding，这三层既用在问题也用在上下文。更具体的，对 $X$ 和 $Q$ 都用一个BiLSTM，得到 $2d\times T$ 的 $H$ 和 $2d\times J$ 的 $U$ 。

前三层是在对上下文和问题做不同粒度的特征提取，类似于CV中多个阶段的CNN提取不同特征。
attention flow，把问题和上下文的向量组合，形成query-aware特征向量集合。之前提到，每个时间点上的attention向量，还有之前层的embedding，都可以去到下面的模型层。所以这一层，输入是 $H$ 和 $U$ ，输出是上下文的特征向量 $G$ ，还有之前层的embedding。

attention分为context-to-query和query-to-context两部分。他们都需要用到一个相似性矩阵 $S$ ，它是 $T\times J$ 维的，其中 $S_{tj}$ 表示第t个context word和第j个query word的相似度。公式是：

$S_{tj}=\alpha(H_{:t},U_{:j})$

其中 $\alpha$ 是一个可训练的标量函数， $H_{:t}$ 是 $H$ 的第t列， $U_{:j}$ 是 $U$ 的第j列。我们让 $\alpha(h,u)=w^T_{S}[h;u;h\circ u]$ ，其中 $w_{s}$ 是可训练的6d维权值向量(2d+2d+2d)， $\circ$ 是矩阵的元素乘法， $[;]$ 是横向的向量连接。下面就可以用 $S$ 得到两个方向的注意力了。

Context-to-query：表明对每个context word哪些query word和它最相关。即 $a_t=softmax(S_{t:})\in R^J$ 。然后可以计算 $\widetilde{U}_{:t}=\sum_j a_{tj}U_{:j}$ ，是一个 $2d\times T$ 维矩阵。

Query-to-context：表明对每个query word，哪些context word和它最相关。寻找方法是，先确立 $b=softmax(max_{col}(S))\in R^T$ ， $\widetilde{h}=\sum_tb_tH_{:t}\in R^{2d}$ 。这个向量表明了context中和query相关的最重要的单词的加权和。 $\widetilde{h}$ 列向量横向堆叠T次，生成 $\widetilde{H}\in R^{2d\times T}$ 。

最后把这两个attention向量合并。定义

$G_{:t}=\beta(H_{:t},\widetilde{U}_{:t},\widetilde{H}_{:t})\in R^{8d}$

$\beta$ 还是可训练的向量， $\beta(h,\widetilde{u},\widetilde{h})=[h;\widetilde{u};h\circ \widetilde{u};h\circ \widetilde{h}]\in R^{8d\times T}$ ，得到了输出 $G$ 。
模型层，输入是上一层的 $G$ ，也就是query-aware向量。用一个两层的BiLSTM，每个方向的output dim都是d，那么可以得到一个 $M\in R^{2d\times T}$ 。 $M$ 的每一列都包含了这个词关于context和query的上下文信息。
输出层，输出答案。QA任务要求模型要找到context的一个部分来回答问题(起始和结束索引)，获得开始索引的方法是：

$p^1=softmax(w^T_{p^1}[G;M])$

$w^T_{p^1}$ 是可训练的权值向量。找到结束索引是类似的，但需要先把 $M$ 跑一个BiLSTM，获得 $M^2\in R^{2d\times T}$ 。然后用和上面类似的公式：

$p^2=softmax(w^T_{p^2}[G;M^2])$