《QANET: COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION》笔记

1、QANet 综述与架构图

  QANet的编码器由CNN和Self-Attention组成,其中CNN模拟局部交互,sef-attention可以学习每对词之间的全局交互。附加的context-query attention是为了构建context中每个位置的query-aware context向量。在这里插入图片描述

2、QANet的具体架构

  给定一个具有n个单词的上下文段落C = {c1,c2,……,cn} 和一个具有m个单词的问题序列
Q = {q1,q2,……,qm}。并且从原始段落C中输出一个跨度S = Q = {ci,ci+1,……,ci+j}作为答案。在下面,我们使用x来表示原始单词和其嵌入向量。 x ∈ C,Q

2.1、Input Embedding Layer

  我们通过连接word embedding和 character embedding来获得每一个单词w的embedding表示。其中word embedding在训练过程中是固定的,它的初始化来自于p1=300维的预训练GloVe词向量。所有的未登录词(OOV)都映射到一个< UNK >的token,它的embedding是可训练的随机初始化。每个字符表示为p2=200维的可训练向量,意味着每个word都可以视为其每个character的串联。每个word的长度被截断或者填充为16.我们取该矩阵的每一行的最大值来获得每个单词的固定大小表示。最后来自该层的给定单词x的输出是串联[xw;xc],其中xw是word embedding,xc是character embedding的卷积输出。

2.2、Embedding Encoder Layer

  encoder layer是由以下基本构建快的堆叠:

【convolution-layer x # + self-attention-layer + feed-forward-layer】

在这里插入图片描述
  我们使用深度可分离卷积,而不是普通的卷积。深度可分离卷积具有记忆效率高,泛化性好的特点。卷积核的大小是7,数量d=128并且一个block中的卷积层有4个。
  对于self-attention层,我们采用多抽头注意力机制(multi-attention mechanism) ,对于输入的每一个位置,称之为query,在输入中由点积测量的query和key之间的相似性来计算所有位置和键的加权和。所有层的head数量都为8。这些基本操作中的每一个(conv/self-attention/ffn)都放在一个残差块中。对于输入x和给定的操作f,输出为f(layernorm(x))+ x,意味着从每个块的输入到输出存在完整的标识路径,其中的layernorm是layer-normalization。注意,对于每个单独的word,该层的输入是维度p1 + p2 = 500的向量,其通过一维卷积立即映射到d = 128。该层的输出也是维度d = 128。

2.3、Context-to-Query Attention Layer

  我们使用C和Q来表示编码过之后的context和query。我们首先计算每一对context和query单词的相似性,得出一个相似性矩阵 S ∈ Rn x m ,其中相似性函数使用三线性函数:
在这里插入图片描述其中⊙是元素乘法,W0是一个可训练变量。
然后使用softmax函数对S的每一行进行归一化得到矩阵在这里插入图片描述。然后 context-to-query attention 由以下公式得到:

在这里插入图片描述
  然后通过softmax函数计算S的列标准化矩阵在这里插入图片描述,之后计算 query-to-context attention:

在这里插入图片描述

2.4、Model Encoder Layer

  该层在每个位置的输入是:
在这里插入图片描述
  其中a和b分别是注意力矩阵A和B的一行,该层的参数和Embedding Encoder Layer的参数是一样的,除了除了block中的包含两个卷积层以及共有7个block。我们在model encoder3次重复中的每一次共享权重。

2.5、 Output Layer

  我们预测在context中每个位置作为答案开始或作者终止位置的可能性。起始位置和终止位置的概率被建模为:
在这里插入图片描述
  其中W1和W2是两个可训练变量,M0、M1 和 M2分别是三个model encoder的输出。span的得分是起始位置和终止位置概率的乘积。最后,目标函数被定义为由真实开始和结束指数索引的预测分布的对数概率的负和,在所有训练样本上取平均值:
在这里插入图片描述
  其中y1iy2i 是实例i的起始和终止位置。其中θ包含了所有可训练的变量。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值