NLP基础知识点：Seq2Seq中的注意力机制到底怎么用？

最新推荐文章于 2023-01-05 18:19:58 发布

梆子井欢喜坨

最新推荐文章于 2023-01-05 18:19:58 发布

阅读量385

点赞数 3

分类专栏： # NLP知识补充学习文章标签：自然语言处理神经网络

本文链接：https://blog.csdn.net/qq_39610915/article/details/116293226

版权

NLP知识补充学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最近在做李宏毅深度学习2020作业8：Seq2Seq时，非常纠结一点，注意力值算出来用在哪儿？
在作业的BASE版本上加上注意力后，机器翻译的效果并没有提升，因此决定梳理一番。
本文主要关注attention用谁计算，以及计算出来如何使用，而不再赘述计算过程。

1. 原论文中

attention应该是做一个语义信息的补充功能。
在这里插入图片描述
简要说明一下公式定义， $c_i$ 代表 $i$ 时刻计算出的注意力向量， $s_i$ 为 $i$ 时刻输出的hidden， $y_i$ 为 $i$ 时刻输出的word
根据原论文中的公式，当前RNN的hidden要通过当前注意力值和前一时刻传过来的hidden，以及前一时刻的输出一起算得。
在这里插入图片描述
再来看注意力值 $c_i$ 的计算公式

这里也是很明确地指出了，注意力中做相似度的运算，是用上一时刻传过来的 $s_{i-1}$ 计算的

但是使用PyTorch编写代码时，我们总需要决定，Decoder中的RNN，给它输入的hidden和input到底是什么？
只靠示意图几条线一连，或者给个抽象函数f是不够的！

2. 斯坦福的CS224N

CS224N是这么描述的
(1) 把attention值 $a_t$ 和当前的RNNhidden $s_t$ 拼在一起，然后通过一个线性分类器得到词的分布概率。
这个 $s_t$ 应该是由输入词向量和 $s_{t-1}$ 计算出来的，那和原论文就不一致了。
在这里插入图片描述

网上找到的一张CS224n的笔记图，进一步阐述了这个过程。

(2) 把上一时刻算出来的attention向量和现在的输入拼在一起。

下面根据cs224n的作业指导，进一步详细描述计算过程：
源句长度为m，词嵌入维度为e
采用了双向LSTM结构的Encoder
在这里插入图片描述
初始化Decoder，W矩阵起到维度变换的作用

在t时刻：

找到第t个subword的embedding， $y_t \in R^{e \times 1}$
把 $y_t$ 和前一步的combined-output vector $o_{t-1} \in R^{h\times1}$ 拼在一起产生 $\bar{y_t} \in R^{(e+h)\times1}$
要注意第一个target subword (i.e. the start token) $o_0$ is a zero-vector.
把 $\bar{y_t}$ 作为输入送入解码器。
（这里也明确了是先输入RNN，再进行注意力的计算）

下面是注意力的计算，注意维度即可。

这个combined-output vector: $o_t$ ，是用 $a_t$ 和当前time step的RNN输出的 ${h_t}^{dec}$ 拼在一起，经过下列运算得到的。

t时刻输出词的概率分布 $P_T$ 为：

$V_t是目标词表大小$
损失函数的计算：

$g_t$ 为t时刻正确的目标词汇的one-hot向量，长度为 $V_t$