SEQ2SEQ —— 学习笔记

最新推荐文章于 2024-07-27 23:49:57 发布

雨落的太敷衍..

最新推荐文章于 2024-07-27 23:49:57 发布

阅读量891

点赞数 1

分类专栏：深度学习文章标签：深度学习神经网络人工智能

本文链接：https://blog.csdn.net/liu1073811240/article/details/110704826

版权

深度学习专栏收录该内容

33 篇文章 14 订阅

订阅专栏

文章目录

一、认识编解码网络
二、什么是编解码网络？
三、编解码的作用
四、编解码网络的种类
- 一个邮件对话的场景
- 深入理解Encoder
五、基于N vs M的RNN网络
六、实战：SEQ2SEQ识别验证码

一、认识编解码网络

编解码模型分为编码器和解码器两部分，编码器通常输入的是一个信息量比较大的数据。

二、什么是编解码网络？

编解码结构的网络模型又叫encoder-decoder模型，顾名思义，编解码模型就像一个压缩器和解压器的组合，它们分别负责对输入到各自网络当中的信息进行压缩和解压，因此成为编解码模型。

三、编解码的作用

编码器的作用就是把这些大量的数据进行压缩，提取特征，通过编码器输出的结果一般是一组对于原数据而提取的特征向量。
解码器的作用则是对编码器输出的特征向量进行解码，以期望得到原始数据相同或相近的结果。

四、编解码网络的种类

       深度学习中的编解码网络的种类有很多，最常见的就是seq2seq, AE, VAE等模型。
       举个例子， SEQ2SEQ网络模型就像一个翻译模型，输入是一个序列(比如一个英文句子)，输出也是一个序列( 比如该英文句子所对应的法文翻译)。
       编解码模型是RNN最重要的一个变种: NvsM (输入与输出序列长度不同)。在机器翻译中：输入（hello）-> 输出（你好）。输入是1个英文单词，输出为2个汉字。在对话机器中：我们提（输入）一个问题，机器会自动生成（输出）回答，这里的输入和输出显然是长度没有确定的序列（sequences）.

一个邮件对话的场景

下图中展示的是一个邮件对话的应用场景，图中的Encoder和Decoder都只展示了一层的普通的LSTMCell。从上面的结构中，我们可以看到，整个模型结构还是非常简单的。EncoderCell最后一个时刻的状态就是上面说的中间语义向量，它将作为DecoderCell的初始状态。然后在DecoderCell中，每个时刻的输出将会作为下一个时刻的输入。
在这里插入图片描述

深入理解Encoder

Encoder部分应该是非常容易理解的，就是一个RNNCell (RNN，GRU，LSTM 等)结构。我们向Encoder中输入一个字/词(一般是表示这个字/词的一个实数向量)，直到我们输入这个句子的最后一个字/词，然后输出整个句子的语义向量c (一般情况下，C是最后一个输出)。因为RNN的特点就是把前面每一步的输入信息都考虑进来了，所以理论上这个C就能够把整个句子的信息都包含了，我们可以把C当成这个句子的一个语义表示，也就是一个句向量。在Decoder中，我们根据Encoder得到的句向量一步一步地把蕴含在其中的信息分析出来。

我们可以先这样来理解:在Encoder中我们得到了一个涵盖了整个句子信息的实数向量C，现在我们一步一步的从C中抽取信息。首先给Decoder输入一个启动信号,然后Decoder根据对c解码，就能够计算出当前的概率分布了，同理，根据c可以计算每一步的概率分布.以此类推直到预测到结束的特殊标志“”，才结束预测。

五、基于N vs M的RNN网络

5.1 什么是SEQ 2 SEQ（N vs M）?

SEQ 2 SEQ是RNN最重要的一个变种: N vs M。这种结构又叫Encoder-Decoder模型，也可以称之为Seq2Seq模型。

5.2 SEQ 2 SEQ的结构及编解码过程

原始的NvsN RNN要求序列等长，然而我们遇到的大部分问题序列都是不等长的，如机器翻译中，源语言和目标语言的句子往往并没有相同的长度。
因此，Encoder- Decoder结构先将输入数据编码成一个上下文向量c:拿到c之后，就用另一个RNN网络对其进行解码，这部分RNN网络被称为Decoder。具体做法就是将c当做之前的初始状态h0输入到Decoder中。

decoder处理方式还有另外一种，就是语义向量C参与了序列所有时刻的运算，如下图，上一时刻的输出仍然作为当前时刻的输入，但语义向量C会参与所有时刻的运算。

5.3 SEQ2SEQ生成对联的过程

在这里插入图片描述
在SEQ2SEQ中，当前时间的隐藏状态由上一时间的状态和当前时间输入决定的，即:ht = f(ht-1, xt), 获得了各个时间段的隐藏层以后，再将隐藏层的信息汇总，生成最后的语义向量：C = q(h1, h2, h3, …, hxn), 当然，有一种最简单的方法是将最后的隐藏层作为语义向量C，即：C = q(h1, h2, h3, …, htx) = htx.