【机器学习】从RNN到Attention上篇循环神经网络RNN，门控循环神经网络LSTM

最新推荐文章于 2024-07-23 22:21:54 发布

努力学挖掘机的李某某

最新推荐文章于 2024-07-23 22:21:54 发布

阅读量676

点赞数

分类专栏：深度学习机器学习算法文章标签：深度学习循环神经网络机器学习 rnn lstm

本文链接：https://blog.csdn.net/qq_30911665/article/details/93599065

版权

打算写一个从RNN到Attention的系列文章，今天先介绍一下循环神经网络RNN和门控循环神经网络LSTM,很多内容为笔者自己的理解，难免有疏漏之处，欢迎大家探讨。
文章有一些修改，因为是在本人的知乎专栏里刘改的，不想来回修改，大家可以去【从RNN到Attention】上篇循环神经网络RNN，门控循环神经网络LSTM

一.为什么RNN比DNN更适合时间序列问题

DNN求解时序问题

对于一个时间序列问题，以单词预测为例，已知 $x_1,x_2,x_3,……,x_t$ ,求解t时刻的单词 $x_{t+1}$ ,那么从概率的角度，该问题可以建模为求解 $argmax_{\theta}P(x_{t+1}|x_{1},x_2,....x_t，\theta)$ ，其中 $\theta$ 为模型参数。如果我们用DNN求解该问题，则模型输入输出可以分别表示为
$X=[x_1,x_2,x_3,……,x_{t-1},x_t]$
$Y=x_{t+1}$

似乎没有什么问题，但是假设一个单词的维度为 $d$ ，则 $X$ 的维度为 $d * t$ ，仅考虑从输入到第一层隐藏层，且隐藏层的维度为 $m$ ，那么其中的参数总量为 $d * t * m$ ，如下图所示，随着t的增长，参数量的增长是非常恐怖的，而且采用这种建模方式， $x_1,x_2,x_3,……x_t$ 对于模型来说是等价的，丢失了他们的时序关系，因此DNN处理时序问题存在

1.参数量过大
2.丢失了时序关系

RNN求解时序问题

RNN的结构如图表示
RNN网络结构图
其中 $x_{i}$ 为输入，对应单词预测问题即为单词的向量表示， $h_{i}$ 为隐含层(hidden layer)，是循环神经网络中特有的网络结构，其中
$\boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh} + \boldsymbol{b}_h).$

最低0.47元/天解锁文章

努力学挖掘机的李某某

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】从RNN到Attention上篇循环神经网络RNN，门控循环神经网络LSTM

为什么我们需要RNN对于一个时间序列问题，已知f(x1),f(x2),f(x3),....,f(xt−1)f(x_1),f(x_2),f(x_3),....,f(x_{t-1})f(x1),f(x2),f(x3),....,f(xt−1),求解f(xt∣x1,x2,....,xt−1)f(x_t|x_{1},x_2,....,x_{t-1})f(xt∣x1,x2,....,xt−1...
复制链接

扫一扫