tensorflow lstm 预测_解析seq2seq原理+tensorflow实现

最新推荐文章于 2022-04-07 15:47:56 发布

weixin_39688170

最新推荐文章于 2022-04-07 15:47:56 发布

阅读量691

点赞数

文章标签： tensorflow lstm 预测

本文链接：https://blog.csdn.net/weixin_39688170/article/details/111362127

版权

本文介绍了seq2seq模型的基础知识，包括Encoder和Decoder的LSTM结构，以及如何在TensorFlow中实现。通过Encoder将输入序列编码为固定大小的向量，Decoder接收此向量并生成目标序列。文章强调多层LSTM和输入句子反转能提升模型效果，并预告了接下来的TensorFlow实现部分。

摘要由CSDN通过智能技术生成

1 写在前面

最近抽时间写文章，将自己以前学过的知识总结一下，通过文章记录下来，以后忘记了也可以随时翻阅。

本文主要介绍最基础的seq2seq模型，并尝试使用tensorflow实现。很多朋友都说pytorch很香，所以随后自己有时间也想入门pytorch，尝试写一个pytorch的版本seq2seq。

2 seq2seq模型

图1 seq2seq模型

结合图1，我们介绍下seq2seq模型。seq2seq模型可以分为Encoder和Decoder两部分。在seq2seq模型中，Encoder和Decoder模型用LSTM或者GRU实现。这里的Enconder将原句子编码成一个固定大小的有意义的向量 C，然后将向量C作为Decoder的输入，Decoder对向量C解码，最后输出目标句子。

2.1 Encoder

Encoder是一个LSTM。假设我们的输入是 how are you，输入句子中的每个单词

通过embedding layer (look up table)后得到一个向量

，其中

是词向量的维度。在我们的例子中，我们的输入句子是how are you，因此我们得到的输入向量是

。然后我们只需在这个向量序列上运行一个LSTM（在seq2seq的原始论文中，作者在实验中使用的是多层LSTM，他们发现，多层LSTM的效果会更好，可以参考图4），并存储LSTM输出的最后一个隐藏状态，最后一个隐藏状态就是我们的encoder编码形成的有意义向量C，在对应到图2中，LSTM的隐藏状态为

，所以C=

。

图2 Encoder部分模型结构

2.2 Decoder

图3 Decoder部分模型结构

Decoder是另一个LSTM。通过Encoder，我们获得了一个捕获了输入序列意义的 fix-size的向量C。然后我们将向量C作为Decoder的输入，一个字一个字地获取目标序列。对应到图3，我们将encoder representation C作为LSTM的hidden state

，一个特殊的标志符向量

作为输入

，其中<sos>表示(

tart of sentence)。随后LSTM计算下一个隐藏状态

。然后我们使用一个函数

，这里一般就是加一个全连接层作为函数

。然后得到

，

。随后将softmax应用到s1，得到标准化的概率表示，即

，其中

。p1中的每个元素

表示选中每个单词的概率，如果法语单词“comment”的概率最大，这样我们就得到单词"comment"的index，然后将单词“comment"的向量

表示作为

，然后

, h1作为下一个LSTM单元的输入，如此进行下去，直到预测的单词是<eos>

seq2seq模型实际就是在给定原句子X的基础上对句子的下一个词的分布建模

下面这一点是Stanford nlp课程中的截图，大家可以看看。

3 tensorflow 实现

本节基于tensorflow实现图4的seq2seq模型，因为seq2seq原论文指出，使用多层LSTM可以达到更好的效果，并且在论文中指出，将原句子反转能获得更好的效果。

图4

4 tensorflow实现

tensorflow实现我写在下一篇文章中吧，不然一篇文章太长会让人看起来不舒服。下面链接是seq2seq的tensorflow实现。

爱罗月：seq2seq之rensorflow实现zhuanlan.zhihu.com

5 参考文献

https://web.stanford.edu/class/cs224n/slides/cs224n-2019-lecture08-nmt.pdfweb.stanford.edu Seq2Seq with Attention and Beam Searchguillaumegenthial.github.io

写在最后：以上全是个人理解，肯定会有不正确或者不准确之处，大家看出来可以评论指正，我看到就会修改过来。

看到这篇文章的小伙伴，如果觉得对你有用，就为我点个赞吧！

注：本文可以任意转载，转载时请标明作者和出处。