神经网络知识点汇总——RNN

最新推荐文章于 2024-04-18 13:25:17 发布

NirHeavenX

最新推荐文章于 2024-04-18 13:25:17 发布

阅读量1.2k

点赞数

分类专栏：深度学习文章标签：神经网络 cnn

本文链接：https://blog.csdn.net/qsczse943062710/article/details/77966501

版权

深度学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

RNN，循环神经网络是一种最新的神经网络结构，和CNN不同的是，它不光在spatial上有一个forward的方向，同时还有一个依赖于时间的传播方向。其中最出名的，当属LSTM(long short time memory)长短期记忆网络。

RNN architecture

RNN

传统的RNN的结构如上所示（左边的图为原始结构，右边的为按照时间序列展开后的结构，这里一个圆圈代表一层，是一系列神经元的集合，这里只画了一个隐藏层），这里纵向方向为FNN中的空间索引防线，横向方向为时间方向，需要注意的是，在所有时间方向上的参数矩阵W是相同的，空间方向上V和U亦是如此，这也体现了RNN“循环反馈”的思想。

RNN UNIT

每个隐藏单元按照如上的方式进行操作，隐藏层的激活函数为tanh函数（现也常用ReLU）。

Input layer

上图中的 $x^{(t)}$ ，不同的时刻有不同的输入。

Out layer

每一个时刻都有一个对应的输出，这个跟FNN是一致的，因此最终的输出也是一个时间序列。回归问题使用均方误差，分类问题使用交叉熵。

Forward propagation in RNN

RNN的前向传播和FNN基本一致，唯一不同的就是在空间方向上的每个节点不光与前一个空间节点有关，还与前一个时间节点有关。
我们有：

h (t) = σ (z (t)) = σ (U x (t) + W h (t - 1) + b) ， σ 一 般 为 t a n h 或 R e L U

$h^{(t)}=\sigma (z^{(t)})=\sigma(Ux^{(t)}+Wh^{(t-1)}+b)，\sigma一般为tanh或ReLU$

o (t) = V h (t) + c

$o(t)=Vh^{(t)}+c$

a (t) = σ (o (t)) ， 多 分 类 中 一 般 为 s o f t m a x

$a^{(t)}=\sigma(o^{(t)})，多分类中一般为softmax$

Backpropagation in RNN

同FNN，反向传播的基点即是损失函数对输入求导，采用梯度方法更新参数。这里我们需要求解的有 $U,W,V,b,c$ 共5个参数。

在每个时间 $t$ ，我们的输出都有一个损失 $L_t$ ，因此定义损失函数 $L=\sum_{t=1}^TL_t$ 。
可以看到 $V,c$ ，只与前一个空间方向的节点有关：

\partial L \partial c = \sum t = 1 T \partial L t \partial a ( t ) \partial a ( t ) \partial o ( t ) \partial o ( t ) \partial c

$\frac{\partial L}{\partial c}=\sum_{t=1}^T\frac{\partial L_t}{\partial a^{(t)}}\frac{\partial a^{(t)}}{\partial o^{(t)}}\frac{\partial o^{(t)}}{\partial c}$

\partial L \partial V = \sum t = 1 T \partial L t \partial a ( t ) \partial a ( t ) \partial o ( t ) \partial o ( t ) \partial V

$\frac{\partial L}{\partial V}=\sum_{t=1}^T\frac{\partial L_t}{\partial a^{(t)}}\frac{\partial a^{(t)}}{\partial o^{(t)}}\frac{\partial o^{(t)}}{\partial V}$
根据损失函数的不同，上式的第一项有不同的结果，接下来求解

W,U,b $W,U,b$ ，这三项既跟空间上的前一个单元有关，还和时间方向的上一个单元有关。同样地，我们定义在索引t位置的隐藏状态的梯度为：

δ t = \partial L \partial h ( t )

$\delta_t=\frac{\partial L}{\partial h^{(t)}}$
求解最后一个时刻

T $T$ 的梯度：

δ T = \partial L \partial a ( t ) \partial a ( t ) \partial o ( t ) \partial o ( t ) \partial h ( t )

$\delta_T=\frac{\partial L}{\partial a^{(t)}}\frac{\partial a^{(t)}}{\partial o^{(t)}}\frac{\partial o^{(t)}}{\partial h^{(t)}}$
递推：

δ t = \partial L \partial a ( t ) \partial a ( t ) \partial o ( t ) \partial o ( t ) \partial h ( t ) + \partial L \partial h ( t + 1 ) \partial h ( t + 1 ) \partial h ( t )

$\delta_t=\frac{\partial L}{\partial a^{(t)}}\frac{\partial a^{(t)}}{\partial o^{(t)}}\frac{\partial o^{(t)}}{\partial h^{(t)}}+\frac{\partial L}{\partial h^{(t+1)}}\frac{\partial h^{(t+1)}}{\partial h^{(t)}}$

上述式子可以直接化简，然后我们求解：

\partial L \partial W = \sum t = 1 T \partial L \partial h ( t ) \partial h ( t ) \partial W

$\frac{\partial L}{\partial W}=\sum_{t=1}^T\frac{\partial L}{\partial h^{(t)}}\frac{\partial h^{(t)}}{\partial W}$

\partial L \partial b = \sum t = 1 T \partial L \partial h ( t ) \partial h ( t ) \partial b

$\frac{\partial L}{\partial b}=\sum_{t=1}^T\frac{\partial L}{\partial h^{(t)}}\frac{\partial h^{(t)}}{\partial b}$

\partial L \partial U = \sum t = 1 T \partial L \partial h ( t ) \partial h ( t ) \partial U

$\frac{\partial L}{\partial U}=\sum_{t=1}^T\frac{\partial L}{\partial h^{(t)}}\frac{\partial h^{(t)}}{\partial U}$

RNN-LSTM architecture

LSTM

长短期记忆网络是RNN的一个变体，也是目前应用最多的RNN结构。它的核心是在每个隐藏层，有三个门：
1.input，用来控制是否让当前时间的新信息进入。
2.output，输出。
3.forget，用来控制遗忘哪些历史信息。
图中的 $\sigma$ 为sigmoid激活函数，它将结果映射为0-1之间的数，这也是为什么称之为“门”：值在0-1从而决定是否让信息通过。
LSTM的前向传播过程在图中已经说的很清楚了，至于反向传播，类似RNN，只不过这里的每个梯度需要考虑更多的信息来源，

NirHeavenX

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
神经网络知识点汇总——RNN

RNN，循环神经网络是一种最新的神经网络结构，和CNN不同的是，它不光在spatial上有一个forward的方向，同时还有一个依赖于时间的传播方向。其中最出名的，当属LSTM(long short time memory)长短期记忆网络。RNN architecture 传统的RNN的结构如上所示（左边的图为原始结构，右边的为按照时间序列展开后的结构，这里一个圆圈代表一层，是一系列神经元的集合，
复制链接

扫一扫