初步了解RNN, Seq2Seq, Attention注意力机

十吾十吾

于 2024-08-27 02:28:38 发布

阅读量51

点赞数

文章标签： rnn 人工智能深度学习神经网络机器学习

@TOC

循环神经网络RNN结构被广泛应用于自然语言处理、机器翻译、语音识别、文字识别等方向。本文主要介绍经典的RNN结构，以及RNN的变种（包括Seq2Seq结构和Attention机制）。希望这篇文章能够帮助初学者更好地入门。

1.经典的RNN结构

初步了解RNN, Seq2Seq, Attention注意力机_机器翻译

这就是最经典的RNN结构，它的输入是：

初步了解RNN, Seq2Seq, Attention注意力机_复杂度_02

输出为：

初步了解RNN, Seq2Seq, Attention注意力机_全连接_03

也就是说，输入和输出序列必有相同的时间长度！

初步了解RNN, Seq2Seq, Attention注意力机_机器翻译_04

初步了解RNN, Seq2Seq, Attention注意力机_全连接_05

初步了解RNN, Seq2Seq, Attention注意力机_机器翻译_06

初步了解RNN, Seq2Seq, Attention注意力机_全连接_07

初步了解RNN, Seq2Seq, Attention注意力机_复杂度_08

初步了解RNN, Seq2Seq, Attention注意力机_机器翻译_09

初步了解RNN, Seq2Seq, Attention注意力机_全连接_10

初步了解RNN, Seq2Seq, Attention注意力机_全连接_11

2.Sequence to Sequence模型

初步了解RNN, Seq2Seq, Attention注意力机_全连接_12

在Seq2Seq结构中，编码器Encoder把所有的输入序列都编码成一个统一的语义向量Context，然后再由解码器Decoder解码。在解码器Decoder解码的过程中，不断地将前一个时刻 t-1 的输出作为后一个时刻 **t **的输入，循环解码，直到输出停止符为止。

初步了解RNN, Seq2Seq, Attention注意力机_复杂度_13

初步了解RNN, Seq2Seq, Attention注意力机_机器翻译_14

初步了解RNN, Seq2Seq, Attention注意力机_全连接_15

初步了解RNN, Seq2Seq, Attention注意力机_复杂度_16

3.Embedding

还有一点细节，就是如何将前一时刻输出类别index（数值）送入下一时刻输入（向量）进行解码。假设每个标签对应的类别index如下：

初步了解RNN, Seq2Seq, Attention注意力机_全连接_17

初步了解RNN, Seq2Seq, Attention注意力机_全连接_18

初步了解RNN, Seq2Seq, Attention注意力机_复杂度_19

初步了解RNN, Seq2Seq, Attention注意力机_复杂度_20

初步了解RNN, Seq2Seq, Attention注意力机_机器翻译_21

初步了解RNN, Seq2Seq, Attention注意力机_复杂度_22

4.Seq2Seq训练问题

初步了解RNN, Seq2Seq, Attention注意力机_复杂度_23

初步了解RNN, Seq2Seq, Attention注意力机_复杂度_24

5.Attention注意力机制

初步了解RNN, Seq2Seq, Attention注意力机_全连接_25

在Seq2Seq结构中，encoder把所有的输入序列都编码成一个统一的语义向量Context，然后再由Decoder解码。由于context包含原始序列中的所有信息，它的长度就成了限制模型性能的瓶颈。如机器翻译问题，当要翻译的句子较长时，一个Context可能存不下那么多信息，就会造成精度的下降。除此之外，如果按照上述方式实现，只用到了编码器的最后一个隐藏层状态，信息利用率低下。所以如果要改进Seq2Seq结构，最好的切入角度就是：利用Encoder所有隐藏层状态 h(t)解决Context长度限制问题。

初步了解RNN, Seq2Seq, Attention注意力机_机器翻译_26