Seq2Seq综述

最新推荐文章于 2024-06-20 10:46:54 发布

夹心酱今天早起了吗

最新推荐文章于 2024-06-20 10:46:54 发布

阅读量1.5k

点赞数 2

文章标签： python 人工智能

本文链接：https://blog.csdn.net/qjx_ruc/article/details/123808559

版权

这篇文章是一个科研项目中博主翻了很多文献后写的一个Part,于是想要搬上来小小记录一下，里面参考了很多其他的博客，但是在写的时候自己也在逐渐理清自己的思路~对Seq2Seq有了更深一些的理解。版权相关问题可以私信我（毕竟这篇也是一时兴起哇）

（一）Seq2Seq历史以及作用

Seq2Seq模型全名Sequence-to-sequence,以下全部简称为Seq2Seq,该模型最早由两篇文章独立地阐述了它主要思想，分别是Google Brain团队的《Sequence to Sequence Learning with Neural Networks》和Yoshua Bengio团队的《Learning Phrase Representation using RNN Encoder-Decoder for Statistical Machine Translation》。这两篇文章针对机器翻译的问题不谋而合地提出了相似的解决思路，Seq2Seq由此产生。《Sequence to Sequence Learning with Neural Networks》论文提出了一种新的Encoder-Decoder模式，之后该技术被广泛运用于机器翻译中，之后该工程师也基于这个模型提出了一些其他的模型，并且在NLP领域得到了广泛的使用。除了机器翻译以外，在语音识别、文本摘要、问答系统、实体名称/主题提取、关系分类、文本分类、文本摘要、产品销售预测中Seq2Seq也取得了巨大的成功。

Seq2Seq是一个编码器-解码器结构的网络模型，这个模型的输入是一个不固定长度的序列，输出也是不固定长度的序列数据。编码器-解码器模型的这种特点突破了传统的固定序列长度输入的框架，在机器翻译等任务中得到了充分的利用，也是得益于这种特性，它开创了将DNN运用于翻译、聊天（问答）这类序列型任务的先河，并且在各种主流语言的相互翻译，语音助手中人机短问快答的应用中有非常好的表现。也正是由于Seq2Seq在多种任务上表现出来的普适性，我们认为它也可以被应用于文言文翻译白话文的工作当中。

在Seq2Seq模型被提出之后，学者基于该模型的基础上提出了基于Attention改进的Seq2Seq以及后来延伸出的Transformer等更加复杂的模型,进一步提高了机器翻译的准确性以及效果。

（二）Seq2Seq模型简介

编码器-解码器模型简介

Seq2Seq是一个编码器-解码器结构的网络模型，因此要探讨Seq2Seq模型的内部结构，我们首先需要了解编码器-解码器模型。编码器-解码器模型并不是某种具体的算法，而是某一类算法的统称，相当于一个通用的框架，在这个框架之下我们可以使用不同的算法来解决不同的任务，根据不同的任务可以选择不同的编码器和解码器，如RNN、LSTM、GRU等

编码器的输入通常为文字、图片、音频等，输入经过编码器后输出一个向量C。解码器得到中间语义向量C后，根据这个向量以及已经生成的历史信息 $y_1,y_2,y_3....y_t-1$ 生成t时刻的单词 $y_t$ :

图1：编码器-解码器模型基本结构（来源：https://blog.csdn.net/wshixinshouaaa）

在这个过程中，无论整体结构的输入和输出的长度是多少，中间的向量C长度都是固定的。但这也造成了普通的编码器-解码器模型的局限性，下面我们来具体讨论这个问题。

编码器-解码器模型的局限性

从上一部分中的编码器-解码器模型基本结构的抽象图中可以看出，编码器和解码器唯一的联系只有语义编码C，即将整个输入序列的信息编码成一个固定大小的状态向量再解码，相当于将信息“有损压缩”。这样的方式有如下两个缺点：

（1）中间语义向量无法完全表达整个输入序列的信息。

（2）随着输入信息长度的增加，由于向量长度固定，先前编码好的信息会被后来的信息覆盖，丢失很多信息。

另一方面而言，在生成图1中的另一方面而言，在生成图1中的 $y_1,y_2,y_3$ 时，语义编码对这三者的贡献都是一样的，然而在实际情况下，我们翻译的时候，对语义的贡献并非一致的。解决这个问题的常见方式是引入Attention（注意力机制），从而让模型理解并更多地专注于部分重点内容。

从编码器-解码器模型到Seq2Seq

以上部分我们阐述了编码器-解码器的基本结构，其本质上是一种框架，而Seq2Seq则是一种应用层上的概念，即从序列到序列，更加强调应用场景，而编码器-解码器则是一种解决Seq2Seq问题的基本模型。

Seq2Seq的优化目标函数

Seq2Seq模型通常用于将不定长的输入序列转换为另一段不定长的输出序列，当前项的内容来源于前一步的输出与输入。于是我们假设输入序列为 $x = {x_1,x_2,x_3....x_n}$ ，输出序列为 $y = {y_1,y_2,y_3...y_m}$ , $y_t$ 代表当前输入词，Seq2Seq模型优化的目标是最大化实际输出序列的联合概率分布函数：

$p(y|x) = \prod_{t=1}^{n_y}p(y_t|y_1,y_2,y_3.....y_{t-1},x)$

其中 $y_t$ 不仅取决于 $t$ 时刻前的输出 $y_1,y_2,y_3....y_{t-1}$ ,也取决于输入序列 $x$ 。

但是该条件概率模型存在问题：数值下溢问题，这是因为这个式子中的每一项 $p(y_t|y_1,y_2,y_3...y_{t-1},x)$ 都小于1甚至远远小于1，最终我们就会得到一个远小于1的数字，造成数值下溢。因此，在实际运用中，我们一般是将其取对数值，选择求其概率的对数和而非概率的乘积，因此实际中我们在优化的过程中我们一般将目标函数设置为：

$P(y|x)=\prod _{t=1}^{n_y}log P(y_t|y_1,y_2,y_3.....y_{t-1},x)$

从而避免数值下溢的问题。

Seq2Seq网络的架构

Seq2Seq的网络主要由一个编码器和一个解码器组成。编码器将输入转换为一个隐藏状态向量，其中包含输入项的内容。解码器进行相反的过程，将向量转换成输出序列，并使用前一步的输出作为下一步的输入。原则上编码器和解码器可以由CNN、RNN、Transformer、LSTM、GRU等结构中的任意一种组合，但是在实际的应用当中，编码器与解码器通常使用相同的网络。