Seq2seq模型及注意力机制模型

最新推荐文章于 2024-06-23 23:30:57 发布

请叫我算术嘉

最新推荐文章于 2024-06-23 23:30:57 发布

阅读量8.2k

点赞数

分类专栏： LSTM Attention 文章标签：神经网络 lstm 深度学习人工智能

本文链接：https://blog.csdn.net/ssjdoudou/article/details/103658563

版权

LSTM 同时被 2 个专栏收录

3 篇文章 3 订阅

订阅专栏

Attention

3 篇文章 2 订阅

订阅专栏

对于处理输出序列为不定长情况的问题，例如机器翻译，例如英文到法语的句子翻译，输入和输出均为不定长。前人提出了seq2seq模型，basic idea是设计一个encoder与decoder，其中encoder将输入序列编码为一个包含输入序列所有信息的context vector $ c $， d e c o d e r 通过对$ c $的解码获得输入序列的信息，从而得到输出序列。encoder及decoder都通常为RNN循环神经网络

LSTM

forget gate:
$f_{t} = \sigma (W_{f}[h_{t-1};x_{t}]+b_{f})$
$W_{f}$ 是遗忘门的权重矩阵， $h_{t-1};x_{t}]$ 表示把两个向量连接成一个更长的向量， $b_{f}$ 是遗忘门的偏置项， $\sigma$ 是sigmoid函数
如果输入的维度是 $d_{x}$ ，隐藏层的维度是 $d_{h}$ ，单元状态的维度是 $d_{c}$ （通常 $d_{c} = d_{h}$ ），则遗忘门的权重矩阵 $W_{f}$ 的维度是 $d_{c}×(d_{h}+d_{x})$
input gate
$i_{t} = \sigma (W_{i}[h_{t-1};x_{t}]+b_{i})$
output gate
$o_{t} = \sigma (W_{o}[h_{t-1};x_{t}]+b_{o})$
final out
$\tilde{c}_{t}= tanh(W_{c}[h_{t-1};x_{t}]+b_{c})$
$c_{t} = f_{t} * c_{t-1} + i_{t} * \tilde{c}_{t}$
$h_{t} = o_{t} * tanh(c_{t})$
前向计算每个神经元的输出值，对于LSTM来说就是 $f_{t}$ , $i_{t}$ , $c_{t}$ , $o_{t}$ , $h_{t}$ 5个向量的值
反向计算每个神经元的误差项 $\delta$ ，包括两个方向，一是沿时间的反向传播，即从当前t时刻开始，计算每个时刻的误差项；另一个是将误差项向上一层传播
根据相应的误差项，计算每个权重的梯度
sigmoid

$\delta (x) = \frac{1}{1+e^{-x}}$
$\delta^{'} (x) = \frac{e^{-x}}{(1+e^{-x})^{2}}=\delta(x)(1-\delta(x))$

tanh

$\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$
$tanh^{'}(x) = 1 - tanh^{2}(x)$

LSTM需要学习的参数共有8组，分别是：

遗忘门的权重矩阵 $W_{f}$ 和偏置项 $b_{f}$
输入门的权重矩阵 $W_{i}$ 和偏置项 $b_{i}$
输出门的权重矩阵 $W_{o}$ 和偏置项 $b_{o}$
计算单元状态的权重矩阵 $W_{c}$ 和偏置项 $b_{c}$

seq2seq模型

Encoder

编码器的作用是把一个不定长的输入序列$ x_{1},x_{2},…,x_{T} $转化成一个定长的context vector $c$ . 该context vector编码了输入序列$ x_{1},x_{2},…,x_{T} $的序列。回忆一下循环神经网络，假设该循环神经网络单元为$ f$（可以为vanilla RNN, LSTM, GRU)，那么hidden state为

$h_{t} = f(x_{t},h_{t-1})$

编码器的context vector是所有时刻hidden state的函数，即：

$c=q(h_{1},...,h_{T})$

简单地，我们可以把最终时刻的hidden state[公式]作为context vecter。当然我们也可以取各个时刻hidden states的平均，以及其他方法。

Decoder

编码器最终输出一个context vector $c$ ，该context vector编码了输入序列$ x_{1},x_{2},…,x_{T} $的信息。

假设训练数据中的输出序列为 $y_{1}y_{2},...,y_{T}^{'}$ ,我们希望每个 $t$ 时刻的输出即取决于之前的输出也取决于context vector，即估计 $P(y_{t'}|y_{1},...,y_{t'-1},c)$ ，从而得到输出序列的联合概率分布：

$P(y_{1},...,y_{T'})=\prod_{t'-1}^{T'}P(y_{t'}|y_{1},...,y_{t'-1},c)$

并定义该序列的损失函数loss function

$log P(y_{1},...,y_{T'})$

通过最小化损失函数来训练seq2seq模型。

那么如何估计$ P(y_{t’}|y_{1},…,y_{t’-1},c) $？

我们使用另一个循环神经网络作为解码器。解码器使用函数 $p$ 来表示 $t^{'}$ 时刻输出 $y_{t'}$ 的概率

$P(y_{t'}|y_{1},...,y_{t'-1},c) = p(y_{t'-1},s_{t'},c)$

为了区分编码器中的hidden state[公式]，其中[公式]为[公式]时刻解码器的hidden state。区别于编码器，解码器中的循环神经网络的输入除了前一个时刻的输出序列[公式]，和前一个时刻的hidden state[公式]以外，还包含了context vector[公式]。即：

$s_{t'} = g(y_{t'-1},s_{t'-1},c)$

其中函数g为解码器的循环神经网络单元。

DA-RNN

第一阶段，使用注意力机制自适应地提取每个时刻的相关feature

$e_{t}^{k}=v_{e}^{T}tanh(W_{e}[h_{t-1};c_{t-1}]+U_{e}x^{k})$

用softmax函数将其归一化
$\alpha _{t}^{k}=\frac{exp(e_{t}^{k})}{\sum_{i-1}^{n}exp(e_{t}^{i})}$
得到更新后的x
$\tilde{x} = (\alpha _{t}^{1}x_{t}^{1}, \alpha _{t}^{2}x_{t}^{2},...,\alpha _{t}^{n}x_{t}^{n})$

选取LSTM作为编码器 $f_{1}$
$h_{t} = f_{1}(h_{t-1}, \tilde{x})$

第二阶段，使用另一个注意力机制选取与之相关的encoder hidden states

对所有时刻的 $h_{t'}$ 取加权平均，即：

$c_{t}^{'} = \sum_{t-1}^{T}\beta _{t^{'}}^{t}h_{t}$

$\beta _{t^{'}}^{t}$ 的设计类似于Bahanau的工作，基于前一个时刻解码器的hidden state $ d_{t’-1} $和 c e l l s t a t e$ s_{t’-1}^{’}$计算得到：

$l_{t}^{t}=v_{d}^{T}tanh(W_{d}[d_{t-1};s_{t-1}^{'}]+U_{d}h_{t})$
$\beta _{t}^{i}=\frac{exp(l_{t}^{i})}{\sum_{j=1}^{T}exp(l_{t}^{j})}$
$c_{t}=\sum_{i=1}^{T}\beta _{t}^{i}h_{i}$

解码器的输入是上一个时刻的目标序列 $y_{t'-1}$ 和hidden state $d_{t'-1}$ 以及context vector $c_{t'-1}$ ，即
$d_{t'}=f_{2}(y_{t'-1},c_{t'-1},d_{t'-1})$
这里设计了 $\tilde{y}_{t'-1}$ 来combie $y_{t'-1}$ 与 $c_{t'-1}$ 的信息，即
$\tilde{y}_{t'-1} = \tilde{\omega }^{T}[y_{t'-1};c_{t'-1}]+\tilde{b}$
然后
$d_{t}=f_{2}(d_{t-1},\tilde{y}_{t-1})$

请叫我算术嘉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Seq2seq模型及注意力机制模型

对于处理输出序列为不定长情况的问题，例如机器翻译，例如英文到法语的句子翻译，输入和输出均为不定长。前人提出了seq2seq模型，basic idea是设计一个encoder与decoder，其中encoder将输入序列编码为一个包含输入序列所有信息的context vector $ c ，decoder通过对，decoder通过对，decoder通过对 c $的解码获得输入序列的信息，从而得到输出...
复制链接

扫一扫

专栏目录