《QANET: COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION》笔记

最新推荐文章于 2022-01-09 00:20:15 发布

天眷LC

最新推荐文章于 2022-01-09 00:20:15 发布

阅读量286

点赞数

本文链接：https://blog.csdn.net/duse4115/article/details/100176532

版权

1、QANet 综述与架构图

QANet的编码器由CNN和Self-Attention组成，其中CNN模拟局部交互，sef-attention可以学习每对词之间的全局交互。附加的context-query attention是为了构建context中每个位置的query-aware context向量。在这里插入图片描述

2、QANet的具体架构

给定一个具有n个单词的上下文段落C = {c₁,c₂,……，c_n} 和一个具有m个单词的问题序列
Q = {q₁,q₂,……，q_m}。并且从原始段落C中输出一个跨度S = Q = {c_i,c_i+1,……，c_i+j}作为答案。在下面，我们使用x来表示原始单词和其嵌入向量。 x ∈ C,Q

2.1、Input Embedding Layer

我们通过连接word embedding和 character embedding来获得每一个单词w的embedding表示。其中word embedding在训练过程中是固定的，它的初始化来自于p₁=300维的预训练GloVe词向量。所有的未登录词（OOV）都映射到一个< UNK >的token，它的embedding是可训练的随机初始化。每个字符表示为p₂=200维的可训练向量，意味着每个word都可以视为其每个character的串联。每个word的长度被截断或者填充为16.我们取该矩阵的每一行的最大值来获得每个单词的固定大小表示。最后来自该层的给定单词x的输出是串联[x_w;x_c]，其中x_w是word embedding，x_c是character embedding的卷积输出。

2.2、Embedding Encoder Layer

encoder layer是由以下基本构建快的堆叠：

【convolution-layer x # + self-attention-layer + feed-forward-layer】

在这里插入图片描述
我们使用深度可分离卷积，而不是普通的卷积。深度可分离卷积具有记忆效率高，泛化性好的特点。卷积核的大小是7，数量d=128并且一个block中的卷积层有4个。
对于self-attention层，我们采用多抽头注意力机制(multi-attention mechanism) ,对于输入的每一个位置，称之为query，在输入中由点积测量的query和key之间的相似性来计算所有位置和键的加权和。所有层的head数量都为8。这些基本操作中的每一个(conv/self-attention/ffn)都放在一个残差块中。对于输入x和给定的操作f，输出为f(layernorm(x))+ x，意味着从每个块的输入到输出存在完整的标识路径，其中的layernorm是layer-normalization。注意，对于每个单独的word，该层的输入是维度p1 + p2 = 500的向量，其通过一维卷积立即映射到d = 128。该层的输出也是维度d = 128。

2.3、Context-to-Query Attention Layer

我们使用C和Q来表示编码过之后的context和query。我们首先计算每一对context和query单词的相似性，得出一个相似性矩阵 S ∈ R^{n x m} ，其中相似性函数使用三线性函数：
在这里插入图片描述其中⊙是元素乘法，W₀是一个可训练变量。
然后使用softmax函数对S的每一行进行归一化得到矩阵。然后 context-to-query attention 由以下公式得到：

在这里插入图片描述
然后通过softmax函数计算S的列标准化矩阵，之后计算 query-to-context attention:

在这里插入图片描述

2.4、Model Encoder Layer

该层在每个位置的输入是:
在这里插入图片描述
其中a和b分别是注意力矩阵A和B的一行，该层的参数和Embedding Encoder Layer的参数是一样的，除了除了block中的包含两个卷积层以及共有7个block。我们在model encoder3次重复中的每一次共享权重。

2.5、 Output Layer

我们预测在context中每个位置作为答案开始或作者终止位置的可能性。起始位置和终止位置的概率被建模为：
在这里插入图片描述
其中W₁和W₂是两个可训练变量，M₀、M₁ 和 M₂分别是三个model encoder的输出。span的得分是起始位置和终止位置概率的乘积。最后，目标函数被定义为由真实开始和结束指数索引的预测分布的对数概率的负和，在所有训练样本上取平均值：
在这里插入图片描述
其中y¹_i 和y²_i 是实例i的起始和终止位置。其中θ包含了所有可训练的变量。

天眷LC

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《QANET: COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION》笔记

1、QANet 综述与架构图 QANet的编码器由CNN和Self-Attention组成，其中CNN模拟局部交互，sef-attention可以学习每对词之间的全局交互。附加的context-query attention是为了构建context中每个位置的query-aware context向量。2、QANet的具体架构给定一个具有n个单词的上下文段落C = {c1,c2,……，...
复制链接

扫一扫