神经网络学习（十八）循环神经网络（RNN）的正向和反向传播算法梳理

最新推荐文章于 2024-06-06 20:29:46 发布

oio328Loio

最新推荐文章于 2024-06-06 20:29:46 发布

阅读量2.5k

点赞数 1

分类专栏：神经网络

本文链接：https://blog.csdn.net/hoho1151191150/article/details/79806021

版权

神经网络专栏收录该内容

20 篇文章 80 订阅

订阅专栏

系列博客是博主学习神经网络中相关的笔记和一些个人理解，仅为作者记录笔记之用，不免有很多细节不对之处。

回顾

前面五小节，我们简单学习了卷积神经网络（CNN）反向传播算法的推导，然后我们自己实现了一个浅层卷积神经网络。卷积神经网络在本系列中先告一段落，我们开始学习循环神经网络的相关知识。本系列的主旨是基础学习，大致了解各个神经网络的基本原理。至于更深的应用，我们留待以后学习。

正向传播

网上关于RNN的介绍非常多，我们这里就不多啰嗦了（主要博主也是似懂非懂），直接进入它的公式部分。为了方便理解，咱们还是以一个直观RNN的展开图开始

就上面的网络结构而言，RNN结构的基本单元可以看作是简单的三层神经网络（也可以是多层的，为了简单起见，以三层为例），与常规的神经网络不同的地方在于，它的隐层会将上一个时刻的隐层输出纳入到当前时刻隐层的输入中，这样就携带了过往时刻的相关信息了。下面是公式的对比

	BP Net	RNN
input layer	$a=x$	$a^t=x^t$
hidden layer	$z_h=Va+b_h\\h=\sigma(z_h)$	$z_h^t=Va^t+\color{red}{Uh^{t-1}_h}+b_h\\h^t=\sigma(z^t_h) [一般选取tanh函数]$
output layer	$z_y=Wh+b_y\\y=\sigma(z_y)$	$z_y^t=Wh^t+b_y\\y^t=\sigma(z^t_y)$

结合上图，RNN的正向传播算法就很好理解了。RNN的输入是序列数据，需要训练的模型参数有 $V$ 、 $W$ 、 $U$ 和 $b_h、b_y$ 。下图为某时刻隐层单元的结构示意图

反向传播

记 $C = f(W,U,V,b_h,b_h)$ 是我们的代价函数，依旧记 $\delta = {\partial C}/{\partial z}$ 为误差。那么有

δ t y = \nabla y t C ⊙ σ' (z t y) (1)

$\delta^t_y=\nabla_{y^t}C \odot \sigma'(z_y^t)\tag{1}$ ，由上式可推导出

δ t h = \partial C \partial z t h = \partial C \partial z t y \partial z t y \partial h t \partial h t \partial z t h + \partial C \partial z t + 1 y \partial z t + 1 y \partial h t \partial h t \partial z t h = (W T δ t y + U T δ t + 1 h) ⊙ σ' (z t h) (2)

$% MathType!MTEF!2!1!+- % feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn % hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqr1ngB % PrgifHhDYfgatCvAUfeBSn0BKvguHDwzZbqegSSZmxoasaacH8srpm % 0dbbf9q8WrFfeuY-Hhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0-yr % 0RYxir-Jbba9q8aq0-yq-He9q8qqQ8frFve9Fve9Ff0dmeaabaqaci % GacaGaaeqabaWaaeaaeaqbaOqaaiabes7aKnaaDaaaleaacaWGObaa % baGaamiDaaaakiabg2da9maalaaabaGaeyOaIyRaam4qaaqaaiabgk % Gi2kaadQhadaqhaaWcbaGaamiAaaqaaiaadshaaaaaaOGaeyypa0Za % aSaaaeaacqGHciITcaWGdbaabaGaeyOaIyRaamOEamaaDaaaleaaca % WG5baabaGaamiDaaaaaaGcdaWcaaqaaiabgkGi2kaadQhadaqhaaWc % baGaamyEaaqaaiaadshaaaaakeaacqGHciITcaWGObWaaWbaaSqabe % aacaWG0baaaaaakmaalaaabaGaeyOaIyRaamiAamaaCaaaleqabaGa % amiDaaaaaOqaaiabgkGi2kaadQhadaqhaaWcbaGaamiAaaqaaiaads % haaaaaaOGaey4kaSceeG+aaaaaaOl7jVkapeWaaSaaaeaacqGHciIT % caWGdbaabaGaeyOaIyRaamOEamaaDaaaleaacaWG5baabaGaamiDai % abgUcaRiaaigdaaaaaaOWaaSaaaeaacqGHciITcaWG6bWaa0baaSqa % aiaadMhaaeaacaWG0bGaey4kaSIaaGymaaaaaOqaaiabgkGi2kaadI % gadaahaaWcbeqaaiaadshaaaaaaOWaaSaaaeaacqGHciITcaWGObWa % aWbaaSqabeaacaWG0baaaaGcbaGaeyOaIyRaamOEamaaDaaaleaaca % WGObaabaGaamiDaaaaaaGcpaGaaeypamaabmaabaWaaeWaaeaacaWG % xbaacaGLOaGaayzkaaWaaWbaaSqabeaacaWGubaaaOGaeqiTdq2aa0 % baaSqaaiaadIgaaeaacaWG0baaaOGaey4kaSYdbmaabmaabaGaamyv % aaGaayjkaiaawMcaamaaCaaaleqabaGaamivaaaakiabes7aKnaaDa % aaleaacaWGObaabaGaamiDaiabgUcaRiaaigdaaaaak8aacaGLOaGa % ayzkaaGaeSyMIuMaeq4WdmNaai4jamaabmaabaGaamOEamaaDaaale % aacaWGObaabaGaamiDaaaaaOGaayjkaiaawMcaaaaa!9F46! \delta _h^t = \frac{{\partial C}}{{\partial z_h^t}} = \frac{{\partial C}}{{\partial z_y^t}}\frac{{\partial z_y^t}}{{\partial {h^t}}}\frac{{\partial {h^t}}}{{\partial z_h^t}} + \color{red}{\frac{{\partial C}}{{\partial z_y^{t + 1}}}\frac{{\partial z_y^{t + 1}}}{{\partial {h^t}}}\frac{{\partial {h^t}}}{{\partial z_h^t}}}{\rm{ = }}\left( {{{W}^T}\delta _y^t + \color{red}{{{U}^T}\delta _h^{t + 1}}} \right) \odot \sigma '\left( {z_h^t} \right)\tag{2}$ 上面表红的地方是因为下一个时刻的

zt+1 z t + 1 $z^{t+1}$ 也需要当前时刻的

ht h t $h^{t}$ 。有了

δ δ $\delta$ 的表达式，我们就可以很容易计算出模型参数的梯度，如下：

\partial C \partial W = \partial C \partial z t y \partial z t y \partial W = (h t) T δ t y (3)

$\frac{{\partial C}}{{\partial W}} = \frac{{\partial C}}{{\partial z_y^t}}\frac{{\partial z_y^t}}{{\partial W}} = {\left( {{h^t}} \right)^T}\delta _y^t\tag{3}$

\partial C \partial V = \partial C \partial z t h \partial z t h \partial W = a T δ t h (4)

$\frac{{\partial C}}{{\partial V}} = \frac{{\partial C}}{{\partial z_h^t}}\frac{{\partial z_h^t}}{{\partial W}} = {a^T}\delta _h^t\tag{4}$

\partial C \partial U = \partial C \partial z t h \partial z t h \partial U = (h t - 1) T δ t h (5)

$\frac{{\partial C}}{{\partial U}} = \frac{{\partial C}}{{\partial z_h^t}}\frac{{\partial z_h^t}}{{\partial U}} = {\left( {{h^{t - 1}}} \right)^T}\delta _h^t\tag{5}$

\partial C \partial b h = δ t h, \partial C \partial b y = δ t y (6)

$\frac{{\partial C}}{{\partial {b_h}}} = \delta _h^t,\frac{{\partial C}}{{\partial {b_y}}} = \delta _y^t\tag{6}$ 通过矩阵的写法，反向传播算法的表述十分简洁清晰。利用公式（1）-（6）我们就可以实现误差的反向传播了。

小结

上面简单总结了通用的RNN模型和正向反向传播算法。当然，有些RNN模型会有些不同，自然正向反向传播的公式会有些不一样，但是原理基本类似。

RNN虽然理论上可以很漂亮的解决序列数据的训练，但是它也像DNN一样有梯度消失时的问题，当序列很长的时候问题尤其严重。因此，上面的RNN模型一般不能直接用于应用领域。

参考资料：
1、循环神经网络RNN以及LSTM的推导和实现

oio328Loio

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
神经网络学习（十八）循环神经网络（RNN）的正向和反向传播算法梳理

系列博客是博主学习神经网络中相关的笔记和一些个人理解，仅为作者记录笔记之用，不免有很多细节不对之处。回顾前面五小节，我们简单学习了卷积神经网络（CNN）反向传播算法的推导，然后我们自己实现了一个浅层卷积神经网络。卷积神经网络在本系列中先告一段落，我们开始学习循环神经网络的相关知识。本系列的主旨是基础学习，大致了解各个神经网络的基本原理。至于更深的应用，我们留待以后学习。正向传播...
复制链接

扫一扫

专栏目录