NLP中的encoder和decoder

最新推荐文章于 2024-08-16 11:12:18 发布

享邑庆啊

最新推荐文章于 2024-08-16 11:12:18 发布

阅读量2.5k

点赞数

转载自：https://blog.csdn.net/mebiuw/article/details/53341404

这里复习下Sequence2Sequence任务到底是什么，所谓的Sequence2Sequence任务主要是泛指一些Sequence到Sequence的映射问题，Sequence在这里可以理解为一个字符串序列，当我们在给定一个字符串序列后，希望得到与之对应的另一个字符串序列（如翻译后的、如语义上对应的）时，这个任务就可以称为Sequence2Sequence了。
在现在的深度学习领域当中，通常的做法是将输入的源Sequence编码到一个中间的context当中，这个context是一个特定长度的编码（可以理解为一个向量），然后再通过这个context还原成一个输出的目标Sequence。
如果用人的思维来看，就是我们先看到源Sequence，将其读一遍，然后在我们大脑当中就记住了这个源Sequence，并且存在大脑的某一个位置上，形成我们自己的记忆（对应Context），然后我们再经过思考，将这个大脑里的东西转变成输出，然后写下来。
那么我们大脑读入的过程叫做Encoder，即将输入的东西变成我们自己的记忆，放在大脑当中，而这个记忆可以叫做Context，然后我们再根据这个Context，转化成答案写下来，这个写的过程叫做Decoder。其实就是编码-存储-解码的过程。
而对应的，大脑怎么读入（Encoder怎么工作）有一个特定的方式，怎么记忆（Context）有一种特定的形式，怎么转变成答案（Decoder怎么工作）又有一种特定的工作方式。

好了，现在我们大体了解了一个工作的流程Encoder-Decoder后，我们来介绍一个深度学习当中，最经典的Encoder-Decoder实现方式，即用RNN来实现。
è¿éåå¾çæè¿°

在今天介绍的Encoder-Decoder模型中，Encoder部分负责依次读入输入序列的每个单位，将其编码成一个模型的中间表示（一般为一个向量），在这里我们将其称为上下文向量c，Decoder部分负责在给定上下文向量c的情况下预测出输出序列。
并且在在自然语言处理应用中，Encoder和Decoder部分通常选择了RNN（LSTM）实现。
è¿éåå¾çæè¿°

为什么我们要选择以RNN为基础的结构去实现Encoder-Decoder呢？：首先，RNN可以方便地处理可变长序列的数据。其次，由于RNN中的隐层状态随着按时序读取的输入单元而不断发生变化，因此它具有对序列顺序的建模的能力，体现在自然语言处理任务中，即为对词序的建模能力。而词序也恰恰是自然语言处理任务中需要建模的重点。最后，RNN可以作为一个语言模型来预测出给定前文的基础上下一个字符出现的概率，这个特性使得其可以应用在各种文本生成任务中预测出语法正确的输出序列，从而实现Decoder的功能。