NLP算法（四）- seq2seq

最新推荐文章于 2024-08-09 09:47:48 发布

Anycall201

最新推荐文章于 2024-08-09 09:47:48 发布

阅读量381

点赞数

分类专栏： NLP算法文章标签：自然语言处理

本文链接：https://blog.csdn.net/anycall201/article/details/111837102

版权

4 篇文章 0 订阅

订阅专栏

1 背景

RNN模型虽然能够将语义信息在序列间传递，但其输入和输出长度必须相同。因此RNN模型在解决如：机器翻译、摘要生成 等问题时比较束手无策。
因此在这基础上，Seq2Seq模型被提出，用以解决这种由一个序列产生另一个序列的问题。

Seq2Seq模型包含两个部分，编码器(Encoder) 和 解码器(Decoder)。与RNN结构不同的是，Seq2Seq结构不再要求输入和输出序列有相同的时间长度。

Encoder把所有的输入序列都编码成一个统一的语义向量Context，然后再由Decoder解码。
在解码过程中，不断地将前一个时刻 $t - 1$ 的输出作为后一个时刻 $t$ 的输入，循环解码，直到输出停止符为止。

除此之外，在现实情况中，目标文本中的单词与源文本中的单词是有对应关系的。因此Seq2Seq模型中，会构建一个Attention Layer，将目标文本中的单词与源文本中的各单词分别计算相关性，我们将这种相关性称为注意力。
Seq2Seq模型结构

Attention Layer
以Luong Attention为例，其模型结构如上所示。
其中：

其具体实现方式为：

计算Decoder $t$ 时刻的状态 $h_t$ 对Encoder每一个隐藏层状态 $\bar{h}_s$ 的权重：
$\alpha_t(s) = \frac{exp[score(\bar{h}_s, h_t)]}{\sum_{s'}{exp[score(\bar{h}_{s'}, h_t)]}}$
其中score可以通过以下三种方式计算：
$\begin{aligned} score(\bar{h}_s, h_t) = \left\{ \begin{matrix} h_t^T \bar{h}_{s'} \quad &dot \\ h_t^T W_a \bar{h}_{s'} \quad &general \\ v_a^T tanh[W_a \cdot concat(h_t,\bar{h}_{s'})] \quad &concat \\ \end{matrix} \right. \end{aligned}$
利用权重 $\alpha_t(s)$ 计算所有隐藏层状态 $\bar{h}_s$ 加权之和 $c_t$ ，即生成新的大小为 $n_h, 1]$ 的Context状态向量。

$c_t = \sum_s{\alpha_t(s) \cdot \bar{h}_s}$

利用Context Vector结合Decoder上一时刻隐藏层向量 $h_{t-1}$ 计算当前时刻Decoder的输出 $y_t$
$\begin{aligned} \widetilde{h}_t &= tanh[W_h \cdot concat(c_t, h_t)] \\ &= tanh(W_h \cdot [c_t;h_t]) \\ y_t &= W_o \widetilde{h}_t + b_o \end{aligned}$

关注