RNN学习笔记

笔者最近对RNN网络进行知识补漏,现将最近了解到的内容整理如下,如有理解不准确的部分,欢迎指正。

 

说起RNN的机制,一般RNN的隐藏单元更新函数为:

                                                 \mathbf{h}_{t} = \sigma \left ( \mathbf{W} \mathbf{x}_{t} + \mathbf{Uh}_{t-1} + \mathbf{b} \right )            
其中\mathbf{W}, \mathbf{U}分别为当前时刻的输入数据\mathbf{x}_{t}和上一时刻隐藏单元信息\mathbf{h}_{t-1}的可学习权重系数。不同于一般CNN网络的神经元更新\mathbf{h} = \sigma \left ( \mathbf{W} \mathbf{x}+ \mathbf{b} \right ),当前隐藏单元信息只与当前输入有关,而在RNN的更新过程中,当前时刻之前的各个时刻信息被包含在上一时刻的隐藏单元信息中,一同作用当前时刻的隐藏单元更新过程,当前时刻的隐藏单元由当前时刻输入数据和上一时刻隐藏单元的信息共同决定。

一般的RNN结构(其它形式的结构应用见文末补充内容1)每层RNN卷积层都可以看成是在时间上展开的一个卷积序列,如图:

 

                                            

值得注意的是,RNN的上述展开形式,每个隐藏单元h的脚标表示的是不同时刻,展开来写:

\mathbf{h}_{1} = \sigma \left ( \mathbf{W} \mathbf{x}_{1} + \mathbf{Uh}_{0} + \mathbf{b} \right )

\mathbf{h}_{2} = \sigma \left ( \mathbf{W} \mathbf{x}_{2} + \mathbf{Uh}_{1} + \mathbf{b} \right )                             (1)

\mathbf{h}_{3} = \sigma \left ( \mathbf{W} \mathbf{x}_{3} + \mathbf{Uh}_{2} + \mathbf{b} \right )

这里的\mathbf{W}, \mathbf{U}都是同一个参数,即参数共享。前向过程比较好理解,现在我们来看RNN采用的反向传播,是随时间反向传播back-propagation through time(BPTT),其实本质还是BP算法,只不过RNN处理时间序列数据,所以要基于时间反向传播,故叫随时间反向传播。此处以\mathbf{y}_3,来看反向传播过程,首先明确待学习的参数为\mathbf{W}, \mathbf{U},\mathbf{b},因此以\mathbf{W}为例,求\mathbf{y}_3\mathbf{W}的偏导,应用链式法则得到:

\frac{\partial \mathbf{y}_3}{\partial \mathbf{W}} =\frac{\partial \mathbf{y}_3}{\partial \mathbf{h}_3}\frac{\partial \mathbf{h}_3}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_3}{\partial \mathbf{h}_3}\frac{\partial \mathbf{h}_3}{\partial \mathbf{h}_2} \frac{\partial \mathbf{h}_2}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_3}{\partial \mathbf{h}_3}\frac{\partial \mathbf{h}_3}{\partial \mathbf{h}_2}\frac{\partial \mathbf{h}_2}{\partial \mathbf{h}_1} \frac{\partial \mathbf{h}_1}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_3}{\partial \mathbf{h}_3}\frac{\partial \mathbf{h}_3}{\partial \mathbf{h}_2}\frac{\partial \mathbf{h}_2}{\partial \mathbf{h}_1} \frac{\partial \mathbf{h}_1}{\partial \mathbf{h}_0}\frac{\partial \mathbf{h}_0}{\partial \mathbf{W}}

\frac{\partial \mathbf{y}_2}{\partial \mathbf{W}} =\frac{\partial \mathbf{y}_2}{\partial \mathbf{h}_2}\frac{\partial \mathbf{h}_2}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_2}{\partial \mathbf{h}_2}\frac{\partial \mathbf{h}_2}{\partial \mathbf{h}_1} \frac{\partial \mathbf{h}_1}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_2}{\partial \mathbf{h}_2}\frac{\partial \mathbf{h}_2}{\partial \mathbf{h}_1}\frac{\partial \mathbf{h}_1}{\partial \mathbf{h}_0} \frac{\partial \mathbf{h}_0}{\partial \mathbf{W}}

\frac{\partial \mathbf{y}_1}{\partial \mathbf{W}} =\frac{\partial \mathbf{y}_1}{\partial \mathbf{h}_1}\frac{\partial \mathbf{h}_1}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_1}{\partial \mathbf{h}_1}\frac{\partial \mathbf{h}_1}{\partial \mathbf{h}_0} \frac{\partial \mathbf{h}_0}{\partial \mathbf{W}}

根据规律可得,上述各公式可以统一为

\frac{\partial \mathbf{y}_t}{\partial \mathbf{W}} = \sum_{k=0}^{t}\frac{\partial \mathbf{y}_t}{\partial \mathbf{h}_t}\prod_{j=k+1}^{t}\frac{\partial \mathbf{h}_j}{\partial \mathbf{h}_{j-1}} \frac{\partial \mathbf{h}_k}{\partial \mathbf{W}}

可以观察到,在某个时刻对\mathbf{W}的偏导数,需要追溯这个时刻之前所有时刻的信息,这还仅仅是一个时刻的偏导数,上面说过损失也是会累加的,那么整个损失函数对W和U的偏导数将会非常繁琐。整体的偏导公式就是将其按时刻将之前的所有时刻再加起来:

\frac{\partial \mathbf{Y}_3}{\partial \mathbf{W}} =\frac{\partial \mathbf{y}_3}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_2}{\partial \mathbf{W}} + \frac{\partial \mathbf{y}_1}{\partial \mathbf{W}} = \sum_{t=1}^{3}\frac{\partial \mathbf{y}_t}{\partial \mathbf{W}}

从上述\mathbf{h}_{1},\mathbf{h}_{2},\mathbf{h}_{3}的表达公式可以看到\frac{\partial \mathbf{h}_j}{\partial \mathbf{h}_{j-1}}其实就是含有激活函数\sigma的乘子,因此在\frac{\partial \mathbf{y}_t}{\partial \mathbf{W}} = \sum_{k=0}^{t}\frac{\partial \mathbf{y}_t}{\partial \mathbf{h}_t}\prod_{j=k+1}^{t}\frac{\partial \mathbf{h}_j}{\partial \mathbf{h}_{j-1}} \frac{\partial \mathbf{h}_k}{\partial \mathbf{W}}\frac{\partial \mathbf{h}_j}{\partial \mathbf{h}_{j-1}}的累乘等价于会导致激活函数导数的累乘,而RNN使用的sigmod和tanh激活函数都属于饱和激活函数(详情解释见文末补充内容2),sigmoid函数的导数范围是(0,0.25],tanh函数的导数范围是(0,1],他们的导数最大都不大于1。这就会导致一个问题,在上面式子累乘的过程中,如果取sigmoid函数作为激活函数的话,那么必然是一堆小数在做乘法,结果就是越乘越小。随着时间序列的不断深入,小数的累乘就会导致梯度越来越小直到接近于0,这就是“梯度消失“现象。ReLU激活函数的左侧导数为0,右侧导数恒为1,这就避免了“梯度消失“的发生。但恒为1的导数容易导致“梯度爆炸“。

 

补充内容1. 其它形式的RNN结构应用

RNN结构,在实际中这一种结构也可以有不同的应用形式,例如我们输入为一串文字,输出为分类类别,那么输出就不需要一个序列,只需要单个输出,但有时候还需要单输入但是输出为序列的情况。两种情况如图:
 

                                                

补充内容2. 饱和和非饱和的激活函数


当有激活函数z(x),其导数为{z}'(x) 时:

  • 饱和激活函数(saturated activation function):
  1. \lim_{x \to +\infty } {z}'(x) = 0,称其为右饱和激活函数;
  2. \lim_{x \to -\infty } {z}'(x) = 0,称其为左饱和激活函数;
  3. \lim_{x \to \infty } {z}'(x) = 0,称其为饱和激活函数。

  常见的饱和激活函数sigmod, tanh

  • 非饱和激活函数(non-saturated activation function):

不满足上述条件的称为不饱和激活函数,常见的饱和激活函数Relu

 

 

参考:

https://blog.csdn.net/zhaojc1995/article/details/80572098

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值