Seq2Seq文本生成与tensorflow实现

最新推荐文章于 2024-07-28 11:52:14 发布

林ch

最新推荐文章于 2024-07-28 11:52:14 发布

阅读量3k

点赞数 5

分类专栏：文本生成 Tensorflow

本文链接：https://blog.csdn.net/linchuhai/article/details/87076097

版权

1. 引言

近年来，深度神经网络在很多任务上都取得了不错的成绩，比如文本分类、图像识别等等，但是我们知道，像DNN神经网络结构只能解决一些分类或回归问题，而很多日常的任务却是一个序列到一个序列的映射问题，比如语音识别、机器翻译、对话系统等等，他们的输入和输出都是边长，而DNN要求输入和输出都是固定维度的，因此，这时需要引入新的结构，才能解决这种序列到序列的生成问题。2014年，谷歌提出了一种新的神经网络结构——Seq2Seq，就是用来专门解决这种序列的生成问题，并且在机器翻译等任务上都取得了出色的表现，本文将对该模型进行展开介绍，并用tensorflow来实现它。原论文的下载地址如下：

论文地址：《Sequence to Sequence Learning with Neural Networks》

2. Seq2Seq模型介绍

2.1 Seq2Seq模型结构

Seq2Seq模型主要包含两个部分，即一个编码器（encoder）和一个解码器（decoder），编码器和解码器分别采用LSTM神经元，因为LSTM神经元相比RNN更能提取长句子中的依赖信息。Seq2Seq的基本原理就是在编码器时，通过LSTM把输入转化为一个固定维度的向量作为输入句子的向量表示，然后将这个向量作为解码器中LSTM层隐藏层的初始化向量，接着逐步进行解码，将其转化为目标输出序列。

Seq2Seq模型的目标其实就是计算这样一个条件概率 $p \left( y _ { 1 } , \dots , y _ { T ^ { \prime } } | x _ { 1 } , \ldots , x _ { T } \right)$ ，其中 $\left( x _ { 1 } , \ldots , x _ { T } \right)$ 表示输入序列，其序列长度为， $y _ { 1 } , \dots , y _ { T ^ { \prime } }$ 表示输出序列，其序列长度为 $T ^ { \prime }$ ，和 $T ^ { \prime }$ 的大小可以不相同。在编码器（encoder）时，LSTM将输入序列 $\left( x _ { 1 } , \ldots , x _ { T } \right)$ 转化为一个固定维度的向量，这个向量其实就是取输入序列最后一个时间步的隐藏层状态，如图1中，输入序列“ABC”，即为“C”对应的隐藏层状态。接着，在解码器（decoder）时，将作为解码器的LSTM隐藏层的初始化状态，逐步地计算每个时间步的输出概率，最后将每个时间步的概率乘积作为输出序列的条件概率，其计算公式如下：

$p \left( y _ { 1 } , \ldots , y _ { T ^ { \prime } } | x _ { 1 } , \ldots , x _ { T } \right) = \prod _ { t = 1 } ^ { T ^ { \prime } } p \left( y _ { t } | v , y _ { 1 } , \ldots , y _ { t - 1 } \right)$