Seq2Seq中的Attention

最新推荐文章于 2022-03-07 14:19:15 发布

筱踏云

最新推荐文章于 2022-03-07 14:19:15 发布

阅读量197

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_34372112/article/details/102810311

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

公式

这篇博客主要讲基础的 seq2seq 中 attention 机制：

输入： $(x_1, x_2, \cdots, x_{T_x})$
输出： $(y_1, y_2, \cdots, y_{T_y})$

公式推导：

$h_t = RNN_{enc}(x_t, h_{t-1})$ ， Encoder 只要它的 hidden state。
$s_t = RNN_{dec}(y_{t-1}, s_{t-1})$ ，这里相当于用 teacher forcing，这里 s 也是指 hidden state。

此时，做 attention：

$e_{ij} = score(s_{i-1}, h_j)$ ， $s_{i-1}$ 先跟每个 $h$ 分别计算的得到一个分数，这样所以 $s$ 计算后，得到一个矩阵，行相当于代表每个词，列相当于分配给每个 $h$ 的权重。也就是每个decoder的 hidden state 与每个 encoder 的 hidden state 计算一个相似度。
$\alpha_{ij} = \frac{exp(e_{ij})}{\sum_{k=1}^{T_x} exp(e_{ik})}$ ，softmax操作。
$c_i = \sum_{j=1}^{T_x}\alpha_{ij}h_j$ ，attention output。

最后

$\hat{s_t} = tanh(W_c[c_t; s_t])$ ，concate 操作， $W$ 为需要学习的参数。
$p(y_t|y_{<t}, x) = softmax(W_s\hat{s_t})$ ，输出概率。

备注：计算score那一步有几种操作，可以直接点乘、加一个可学习矩阵相乘、cos相似度、多层感知机等:
$score(s_i, h_i)=\left\{ \begin{aligned} & s_i^{\mathrm T}h_i \\ & s_i^{\mathrm T}Wh_i \\ & v^{\mathrm T}tanh(W[s_i;h_i]) \end{aligned} \right.$