动态/双向attention和QANet

最新推荐文章于 2022-03-20 22:13:14 发布

我黑切呢**

最新推荐文章于 2022-03-20 22:13:14 发布

阅读量397

点赞数

分类专栏：笔记链接文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_43390809/article/details/114375810

版权

笔记链接专栏收录该内容

9 篇文章 0 订阅

订阅专栏

在这里插入图片描述

1.动态注意网络（DCN）：

在这里插入图片描述

1.1 encoder

查询术语序列向量表示（GloVe）： ( $x$ $^Q$ $_1$ ， $x$ $^Q$ $_2$ ,…, $x$ $^Q$ $_n$ )
文档术语序列向量表示（GloVe）：( $x$ $^D$ $_1$ ， $x$ $^D$ $_2$ ,…, $x$ $^D$ $_m$ )
使用LSTM编码文档： $d$ $_t$ = $L$ $S$ $T$ $M$ $_e$ $_n$ $_c$ ( $d$ $_t$ $_-$ $_1$ , $x$ $^D$ $_t$ )。文档编码矩阵： $D$ = [ $d_1$ … $d_m$ , $d_∅$ ] ∈ $R$ $^l$ $^×$ $^($ $^m$ $^+$ $^1$ $^)$ 。 $d_∅$ 为哨兵向量，它允许模型不关注输入中的任何特定单词。
question编码： $q$ $_t$ = $L$ $S$ $T$ $M$ $_e$ $_n$ $_c$ ( $q$ $_t$ $_-$ $_1$ , $x$ $^Q$ $_t$ )。question编码矩阵： $Q$ $^’$ = [ $q_1$ … $q_n$ , $q_∅$ ] ∈ $R$ $^l$ $^×$ $^($ $^n$ $^+$ $^1$ $^)$ ，考虑到question编码空间和文档编码空间之间的差异，引入了非线性投影层映射question：
在这里插入图片描述

1.2coattention encoder

在这里插入图片描述

1.计算相似度矩阵：
在这里插入图片描述
2.document-to-question （行）注意力权重 $A$ $^Q$ :

3.question-to-document（列）注意力权重 $A^D$ :
在这里插入图片描述
4.接下来，根据question的每个单词计算文档的摘要或注意上下文：

5.同样根据文档中的每个单词来计算问题的摘要： $C^D$ = $Q$ $A$ $^D$ ，还根据文档中的每个单词计算先前注意上下文的摘要 $C^Q$ $A$ $^D$ 。这两个操作可以并行完成：
在这里插入图片描述
6.最后的 $C^D$ 就为共同感知的question和document表示，然后通过bi-lstm融合时间信息：

所以有：

这为选择哪个跨度可能是最好的可能答案提供了基础。

1.3动态指向解码器

给定一个问题-文档对，文档中可能存在几个直观的答案区间，每个对应于一个局部最大值。本文提出了一种迭代技术，通过在预测起点和预测终点之间交替来选择答案跨度。如图三所示
在这里插入图片描述它类似于一个状态机，其状态由基于LSTM的顺序模型来维护。在每次迭代期间，解码器考虑到对应于开始和结束位置的当前估计的潜在编码来更新其状态，并通过多层神经网络产生开始和结束位置的新估计。让 $h_i$ 、 $s_i$ 和 $e_i$ 分别表示为迭代 $i$ 期间LSTM的隐藏状态、初始位置的估计和结束位置的估计。然后LSTM状态更新为：
在这里插入图片描述
其中 $u$ $_s$ $_i$ $_-$ $_1$ 和 $u$ $_e$ $_i$ $_-$ $_1$ 是对应于前一次估计的编码 $u$ 的开始和结束位置的表示，给定当前隐藏状态 $h_i$ 、先前开始位置 $u$ $_s$ $_i$ $_-$ $_1$ 和先前结束位置 $u$ $_e$ $_i$ $_-$ $_1$ ，我们估计当前开始位置和结束位置：
在这里插入图片描述
其中 $α$ 和 $β$ 代表对应于文档中第一个单词的开始分数和结束分数。用单独的神经网络计算 $α$ 和 $β$ 。这些网络具有相同的体系结构，但不共享参数。
本文提出了Highway Maxout Network (HMN)来计算由等式描述的 $α$ 和 $β$ ：
在这里插入图片描述
这里， $u$ $_t$ 对应于文档中第 $t$ 个单词的字符编码。结束分数 $β_t$ 的计算类似于开始分数 $α_t$ ，但使用单独的 $H$ $M$ $N$ $_e$ $_n$ $_d$ 。

HMN模型：
在这里插入图片描述

结果

SQuAD：
1.DCN
EM：66.2 F1：75.9
2.BiDAF：
EM：73.3 F1： 81.1

BiDAF的双向attention

1.建立相似度矩阵 $S$ ∈ $R$ $^T$ $^×$ $^J$ （ $H$ ：context( $T$ 长) $U$ ：question( $J$ 长)）：
在这里插入图片描述

2.Context-to-query Attention.:

$a$ $_t$ = softmax( $S_t$ $_:$ )∈ $R^J$

$U^’$ = $a$ $U$ ∈ $R$ $^d$ $^×$ $^T$

3.Query-to-context Attention:

$b$ = softmax( $m$ $a$ $x$ $_c$ $_o$ $_l$ ( $S$ )) ∈ $R^T$

$H^’$ = $b$ $H$ ∈ $R$ $^d$
最后扩展为 $T$ 行： $H^’$ ∈ $R$ $^d$ $^×$ $^T$

4.融合上下文：
在这里插入图片描述
$β$ 计算为：

在这里插入图片描述

model

在这里插入图片描述

encoder

1.300维的GloVe+200维的char。
2.连接送入两层高速公路网络

Embedding Encoder Layer

上图右：
总共一个block：[convolution-layer× $n$ + self-attention-layer + feed-forward-layer]

Context-Query Attention Layer

1.构建相似度矩阵（方法同BiDAF）
2.计算attention（方法同DCN）

Model Encoder Layer

3个Model encoder block ，每个Model encoder block 由7个encoder block堆叠而成。

output layer

与BiDAF相同

结果

速度更快，EM/F1更高。
在这里插入图片描述

我黑切呢**

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
动态/双向attention和QANet

1.动态注意网络（DCN）：1.1 encoder查询术语序列向量表示（GloVe）： (xxxQ^QQ1_11，xxxQ^QQ2_22,…,xxxQ^QQn_nn)文档术语序列向量表示（GloVe）：(xxxD^DD1_11，xxxD^DD2_22,…,xxxD^DDm_mm)使用LSTM编码文档：dddt_tt=LLLSSSTTTMMMe_een_nnc_cc(dddt_tt−_-−1_11,xxxD^DDt_tt)。文档编码矩阵：DDD = [d1d_1d1….
复制链接

扫一扫