Seq2Seq

最新推荐文章于 2024-06-05 10:27:35 发布

置顶年少无为呀！

最新推荐文章于 2024-06-05 10:27:35 发布

阅读量636

点赞数 1

分类专栏： NLP自然语言处理深度学习文章标签：人工智能自然语言处理

本文链接：https://blog.csdn.net/qq_19409845/article/details/104090208

版权

9 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

自编码器

Seq2Seq(Sequence to Sequence)，它被提出于2014年，最早由两篇文章独立地阐述了它主要思想，分别是Google Brain团队的《Sequence to Sequence Learning with Neural Networks》和Yoshua Bengio团队的《Learning Phrase Representation using RNN EncoderDecoder for Statistical Machine Translation》。
Seq2Seq属于一种Encoder-Decoder结构。

在这里插入图片描述

Encoder-Decoder 的这种结构，其中 Encoder 是一个RNNCell（RNN ，GRU，LSTM 等）结构。每个 time-step，我们向 Encoder 中输入一个字/词（一般是表示这个字/词的一个实数向量），直到我们输入这个句子的最后一个字/词 $X_T$ ，然后输出整个句子的语义向量 c（一般情况下， $c=h_T=F([X_T;h_{T-1}]W$ ), $X^T$ 是最后一个time-step输入）。因为 RNN 的特点就是把前面每一步的输入信息都考虑进来了，所以理论上这个 c 就能够把整个句子的信息都包含了，我们可以把 c 当成这个句子的一个语义表示，也就是一个句向量。在 Decoder 中，我们根据 Encoder 得到的句向量 c，一步一步地把蕴含在其中的信息分析出来。

在这里插入图片描述

在这里插入图片描述

Seq2Seq应用场景，包括了经典的机器翻译、文本摘要和对话生成等，也包括了一些非常有趣的应用
比如：根据公式图片生成 latex 代码，生成 commit message 等。
自然语言生成（NLG）是一个非常有意思，也非常有前途的研究领域，简单地说，就是解决一个条件概率 p(output| context)的建模问题，即根据 context 来生成 output，这里的 context 可以非常零活多样，大家都是利用深度学习模型对这个条件概率进行建模，同时加上大量的训练数据和丰富的想象力，可以实现很多有趣的工作。
Seq2Seq 是一个简单易用的框架，开源的实现也非常多，但并不意味着直接生搬硬套就可以了，需要具体问题具体分析。此外，对于生成内容的控制，即 decoding 部分的研究也是一个非常有意思的方向，
比如：如何控制生成文本的长度，控制生成文本的多样性，控制生成文本的信息量大小，控制生成文本
的情感等等。

最基础的Seq2Seq模型包含了三个部分，即Encoder、Decoder以及连接两者的中间状态向量
- Encoder通过学习输入，将其编码成一个固定大小的状态向量c，继而将c传给Decoder
- Decoder再通过对状态向量c的学习来进行输出。
下图中，图中每一个box代表了一个RNN Cell单元，通常是LSTM或者GRU。
Encoder-Decoder框架可以这么直观地去理解：可以把它看作适合处理由一个句子（或篇章）生成另外一个句子（或篇章）的通用处理模型。对于句子对<X,Y>，我们的目标是给定输入句子X，期待通过Encoder-Decoder框架来生成目标句子Y。X和Y可以是同一种语言，也可以是两种不同的语言。而X和Y分别由各自的单词序列构成： $X=(x_1,x_2,...,x_m)$ $Y=(y_1,y_2,...,y_n)$
Encoder顾名思义就是对输入句子X进行编码，将输入句子通过非线性变换转化为中间语义表示C： $C=F(x_1,x_2,...,x_m)$
对于解码器Decoder来说，其任务是根据句子X的中间语义表示C 和之前已经生成的历史信息 $y_1,y_2,….,y_{i-1}$ 来生成i时刻要生成的单词 $y_i$
每个 $y_i$ 都依次这么产生，那么看起来就是整个系统根据输入句子X生成了目标句子Y $y_i=G(C,y_1,y_2,...,y_n)$

输入下x，输出y，如下图

Inputs	Target
How are you?	I am good
Can you fly that thing?	Not yet

在这里插入图片描述
几个重要的符号：

<PAD> 在训练中，我们将数据按批次输入。但同一批次中必须有相同的Sequence Length(序列长度 /time_steps)。所以我们会用<PAD>填充较短的输入。
<EOS> 它能告诉解码器句子在哪里结束，并且它允许解码器在其输出中表明句子结束的位置
<UNK> 忽视词汇表中出现频率不够高而不足以考虑在内的文字,将这些单词替换为 <UNK>
<GO> 解码器的第一个时间步骤的输入，以使解码器知道何时开始产生输出

下图为：word2id

在这里插入图片描述

在输入中，一个批次数据的长度大小需要一致，所以要进行填充。在这里插入图片描述对照word2id可以得到输入向量：

在这里插入图片描述
更具word2id找到对应的输出

将RNN模块换成LSTM，则效果如下图。Encoder 和 Decoder 都是 4 个时间步长的 LSTM(但是只有两个RNN Cell)。
小技巧：将源句子顺序颠倒后再输入 Encoder 中，比如源句子为“A B C”，那么输入 Encoder 的顺序为 “C B A”，经过这样的处理后，取得了很大的提升，而且这样的处理使得模型能够很好
地处理长句子。

关注