Seq2Seq文本生成与tensorflow实现

1. 引言

    近年来,深度神经网络在很多任务上都取得了不错的成绩,比如文本分类、图像识别等等,但是我们知道,像DNN神经网络结构只能解决一些分类或回归问题,而很多日常的任务却是一个序列到一个序列的映射问题,比如语音识别、机器翻译、对话系统等等,他们的输入和输出都是边长,而DNN要求输入和输出都是固定维度的,因此,这时需要引入新的结构,才能解决这种序列到序列的生成问题。2014年,谷歌提出了一种新的神经网络结构——Seq2Seq,就是用来专门解决这种序列的生成问题,并且在机器翻译等任务上都取得了出色的表现,本文将对该模型进行展开介绍,并用tensorflow来实现它。原论文的下载地址如下:

2. Seq2Seq模型介绍

2.1 Seq2Seq模型结构

    Seq2Seq模型主要包含两个部分,即一个编码器(encoder)和一个解码器(decoder),编码器和解码器分别采用LSTM神经元,因为LSTM神经元相比RNN更能提取长句子中的依赖信息。Seq2Seq的基本原理就是在编码器时,通过LSTM把输入转化为一个固定维度的向量作为输入句子的向量表示,然后将这个向量作为解码器中LSTM层隐藏层的初始化向量,接着逐步进行解码,将其转化为目标输出序列。

    Seq2Seq模型的目标其实就是计算这样一个条件概率p \left( y _ { 1 } , \dots , y _ { T ^ { \prime } } | x _ { 1 } , \ldots , x _ { T } \right),其中\left( x _ { 1 } , \ldots , x _ { T } \right)表示输入序列,其序列长度为Ty _ { 1 } , \dots , y _ { T ^ { \prime } }表示输出序列,其序列长度为T ^ { \prime }TT ^ { \prime }的大小可以不相同。在编码器(encoder)时,LSTM将输入序列\left( x _ { 1 } , \ldots , x _ { T } \right)转化为一个固定维度的向量v,这个向量其实就是取输入序列最后一个时间步的隐藏层状态,如图1中,输入序列“ABC”,v即为“C”对应的隐藏层状态。接着,在解码器(decoder)时,将v作为解码器的LSTM隐藏层的初始化状态,逐步地计算每个时间步的输出概率,最后将每个时间步的概率乘积作为输出序列的条件概率,其计算公式如下:

                                                           p \left( y _ { 1 } , \ldots , y _ { T ^ { \prime } } | x _ { 1 } , \ldots , x _ { T } \right) = \prod _ { t = 1 } ^ { T ^ { \prime } } p \left( y _ { t } | v , y _ { 1 } , \ldots , y _ { t - 1 } \right)

其中,每个时间步的条件概率p \left( y _ { t } | v , y _ { 1 } , \dots , y _ { t - 1 } \right)都是在所有的词汇上经过softmax计算得到。

    那么,Seq2Seq是怎么确保输出序列的长度是可变的呢?其实是这样的,在输出序列时,会在每个输出序列的末尾加上一个结束标记符“<EOS>”,如图1中,输出序列为"WXYZ",在训练时会在其末尾加上“<EOS>”,即输出序列变成“WXYZ<EOS>”,这样一来,当某个时刻的条件概率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值