【机器学习】从RNN到Attention 中篇从Seq2Seq到Attention in Seq2Seq

最新推荐文章于 2024-01-21 03:45:08 发布

VIP文章努力学挖掘机的李某某

最新推荐文章于 2024-01-21 03:45:08 发布

阅读量659

点赞数

分类专栏：深度学习机器学习算法文章标签：深度学习机器学习 Seq2Seq Attention 注意力机制

本文链接：https://blog.csdn.net/qq_30911665/article/details/94291554

版权

变长输出模型——Seq2Seq

在上一篇【机器学习】从RNN到Attention上篇循环神经网络RNN，门控循环神经网络LSTM中，我们的建模基础是通过一串历史的时间序列 $x_1,x_2,.....,x_t$ ，预测下一时刻的时间序列 $x_{t+1}$ ，即输出为1一个数据。如下图所示：
N VS 1
这类模型通常可以用来解决时间序列预测，比如股票预测，或者可以用于时间序列的分类问题，比如情感分析。
事实上RNN最经典的结构是输入一串连续的时间序列数据 $x_1,x_2,.....,x_t$ ，输入出对应时刻的label $y_1,y_2,.....,y_t$ ，即N VS N 模型结构，如下图所示。在该模型结构中，输入序列和输出序列必须是等长的。 N VS N
这个模型的一个经典应用是Char RNN。
但是对于一类更广泛的需求：输入序列长度为N，输出序列长度为M。常见的比如机器翻译、语音识别等，都属于上述输入输出不等长的类型，对于这种N VS M类型，上述模型都无能为力。而Seq2Seq模型则是为了解决这类问题而设计的。
Seq2Seq模型又叫Encoder-Decoder模型，事实上我认为Encoder-Decoder更能够表达这个模型的设计思想，即将输入的N的序列编码（Encoder）成一个场景变量(context) C，然后使用一个解码器网络（Decoder）进行解码，其中C作为初始状态h0输入到Decoder中。如下图所示

这里存在三个问题：

1.C是怎么计算得到的？

C的计算方法有很多种，比如将encoder中的最后一个隐藏层变量 $h_t$ 直接拿出来作为C,即 $C=h_t$ ，或者将 $h_t$ 做一个矩阵变换 $C=W_{hct}h_t$ ，也可以将所有的encoder中所有的隐藏层做一个变换 $C=W_{hc}[h_1,h_2,....,h_t]$ ，总之C是由网络左侧的encoder网络的隐藏层 $h_1,h_2,.....,h_t$

最低0.47元/天解锁文章

努力学挖掘机的李某某

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】从RNN到Attention 中篇从Seq2Seq到Attention in Seq2Seq

变长输出模型——Seq2Seq在上一篇【机器学习】从RNN到Attention上篇循环神经网络RNN，门控循环神经网络LSTM中，我们的建模基础是通过一串历史的时间序列x1,x2,.....,xtx_1,x_2,.....,x_tx1,x2,.....,xt，预测下一时刻的时间序列xt+1x_{t+1}xt+1，即输出为1一个数据。如下图所示：这类模型通常可以用来解决时间序列预测，...
复制链接

扫一扫