常见的五种神经网络(3)-循环神经网络(中)篇

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Gamer_gyt/article/details/100709422

转载请注明出处:https://thinkgamer.blog.csdn.net/article/details/100709422
博主微博:http://weibo.com/234654758
Github:https://github.com/thinkgamer
公众号:搜索与推荐Wiki


引言

常见的五种神经网络系列第三种,主要介绍循环神经网络,分为上中下三篇进行介绍,本文主为(中)篇,涉及内容如下:

  • 循环神经网络中的参数学习
  • RNN中的长期依赖问题
  • 常见的循环神经网络结构

该系列的其他文章:


参数学习

循环神经网络的参数可以通过梯度下降方法来学习。给定一个样本(x,y),其中x1:T=(x1,x2,...,xT)x_{1:T}=(x_1, x_2, ... ,x_T)为长度是T的输入序列,其中y1:T=(y1,y2,...,yT)y_{1:T}=(y_1, y_2, ... ,y_T)是长度为T的标签序列,在每个时刻t,都有一个监督信息yty_t,定义时刻t的损失函数为(公式1-1):
Lt=L(yt,g(ht)) L_t = L(y_t, g(h_t))
其中g(ht)g(h_t)为第t时刻的输出,L为可微分的损失函数,比如交叉熵,整个序列上的损失函数为(公式1-2):
L=t=1TLt L = \sum_{t=1}^{T} L_t
整个序列的损失函数L关于参数U的梯度为(公式1-3):
LU=t=1TLtU \frac{\partial L}{\partial U} = \sum _{t=1}^{T}\frac{\partial L_t}{ \partial U }
即每个时刻的损失函数LtL_t对参数U的偏导数之和。

在循环神经网络中主要有两种计算梯度的方式:

  • 随时间反向传播算法(Backpropagation Through Time,BRTT)
  • 实时循环学习(Real-Time Recurrent Learning,RTRL)

随时间反向传播算法

主要通过类似前馈神经网络的错误反向传播算法来进行计算梯度。随时间反向传播算法将循环神经网络看作是一个展开的多层前馈网络,其中“每一层”对应循环网络中的每个时刻,这样循环神经网络就可以按照前馈神经网络中的反向传播算法来计算梯度。与前馈神经网络不同的是,循环神经网络中各层的参数是共享的,因此参数的真实梯度是各个层的参数梯度之和。

先计算公式1-3中第t时刻损失对参数U的偏导数 LtU\frac {\partial L_t}{\partial U},参数U和每个时刻k的净输入zk=Uhk1+Wxk+bz_k = Uh_{k-1} + Wx_{k} + b有关,因此第t个时刻损失函数LtL_t关于参数UijU_ij的梯度为(公式1-4):
LtUij=k=1ttr((Ltzk)T+zkUij)=k=1t(+zkUij)TLtzk \frac{\partial L_t}{ \partial U_{ij}} = \sum_{k=1}^{t} tr( ( \frac{\partial L_t}{ \partial z_k} )^T \frac{\partial^+ z_k}{ \partial U_{ij}} ) \\ = \sum_{k=1}^{t} ( \frac{\partial^+ z_k}{ \partial U_{ij}} )^T \frac{\partial L_t}{ \partial z_k}

其中+zkUij\frac{\partial^+ z_k}{ \partial U_{ij}} 表示“直接”偏导数,即公式zk=Uhk1+Wxk+bz_k = Uh_{k-1} + Wx_{k} + b中保持hk1h_{k-1}不变,对UijU_{ij}进行求偏导数,得到(公式1-5):
+zkUij=[0...[hk1]j...0]Ii([hk1]j) \frac{\partial^+ z_k}{ \partial U_{ij}} = \begin{bmatrix} 0\\ ... \\ [h_{k-1}]_j \\ ... \\ 0 \end{bmatrix} \triangleq I_i([h_{k-1}]_j)
其中[hk1]j[h_{k-1}]_j为第k1k-1时刻隐状态的第j维,Ii(x)I_i(x)除了第j行值为x,之外全为0的向量。

定义δt,k=Ltzk\delta _{t,k} = \frac{\partial L_t}{ \partial z_k }为第t时刻损失函数对第k时刻隐藏层神经元净输入zkz_k的导数,则(公式1-6):
δt,k=Ltzk=hkzkzk+1hkLtzk+1=diag(f(zk))UTδt,k+1 \delta _{t,k} = \frac{\partial L_t}{ \partial z_k } \\ = \frac{ \partial h_k }{ \partial z_k} \frac{\partial z_{k+1}}{ \partial h_k } \frac{ \partial L_t }{ \partial z_{k+1} } \\ = diag(f'(z_k))U^T \delta _{t,k+1}

将(公式1-6) 和 (公式 1-5) 代入(公式1-4)得到(公式1-7):
LtUij=k=1t[δt,k]i[hk1]j \frac{\partial L_t}{ \partial U_{ij} } = \sum_{k=1}^{ t } [\delta _{t,k}]_i [h_{k-1}]_j
将(公式1-7)写成矩阵形式为(公式1-8):
LU=k=1tδt,khk1T \frac{\partial L}{ \partial U } = \sum_{k=1}^{ t } \delta _{t,k} h^T_{k-1}
下图为随时间反向传播算法示例:

随时间反向传播算法示例

将(公式1-8)代入(公式1-3)得到整个序列的损失函数LL关于参数UU的梯度(公式1-9):
LU=t=1Tk=1tδt,khk1T \frac{\partial L}{ \partial U } = \sum_{t=1}^{ T}\sum_{k=1}^{ t } \delta _{t,k} h^T_{k-1}

同理可得到LL关于参数WW的梯度(公式1-10):
LW=t=1Tk=1tδt,kxkT \frac{\partial L}{ \partial W } = \sum_{t=1}^{ T}\sum_{k=1}^{ t } \delta _{t,k} x^T_k

LL关于参数bb的梯度(公式1-11):
Lb=t=1Tk=1tδt,k \frac{\partial L}{ \partial b } = \sum_{t=1}^{ T}\sum_{k=1}^{ t } \delta _{t,k}

在 随时间反向传播算法中,参数的梯度需要在一个完整的“向前”计算和“向后”计算后才能得到并参数更新。

实时循环学习

与随时间反向传播算法不同的是:实时循环学习(Real-Time Recurrent Learning)是通过前向传播的方式来计算梯度。

假设RNN中第 t+1t+1时刻的状态ht+1h_{t+1}为(公式1-12):
ht+1=f(zt+1)=f(Uhk+Wxk+1+b) h_{t+1} = f(z_{t+1}) = f(Uh_k + Wx_{k+1} + b)
其关于参数KaTeX parse error: Expected '}', got 'EOF' at end of input: U_{ij的偏导数为(公式1-13):
ht+1Uij=ht+1zt+1(+zt+1Uij+UhtUij)=diag(f(zt+1))(Ii([ht]j)+UhtUij)=f(zt+1)(Ii([ht]j)+UhtUij) \frac{ h_{t+1} }{ \partial U_{ij} } = \frac{ \partial h_{t+1} }{ \partial z_{t+1} } ( \frac{ \partial^+z_{t+1} }{ \partial U_{ij}} + U \frac{ \partial h_t}{ \partial U_{ij} } ) \\ = diag( f'(z_{t+1}) ) ( I_i ([h_t]_j)+ U \frac{ \partial h_t}{ \partial U_{ij} } ) \\ =f'(z_{t+1}) \odot ( I_i ([h_t]_j)+ U \frac{ \partial h_t}{ \partial U_{ij} } )
其中Ii(x)I_i(x)为除了第i行之外元素全为0的向量。

RTRL自从第一个时刻开始,除了计算RNN的隐状态之外,还利用(公式1-13)依次前向计算偏导数h1Uij,h2Uij,h3Uij...\frac{\partial h_1}{ \partial U_{ij}},\frac{\partial h_2}{ \partial U_{ij}},\frac{\partial h_3}{ \partial U_{ij}}...

这样假设第t个时刻存在一个监督信息,其损失函数为LtL_t,就可以同时计算损失函数对UijU_{ij}的偏导数(公式1-14):
LtUij=(htUij)TLtht \frac{\partial L_t}{ \partial U_{ij}} =( \frac{\partial h_t}{ \partial U_{ij} } )^T \frac{\partial L_t}{ \partial h_t}
这样在第t个时刻就可以实时计算LtL_t关于参数U的梯度,并更新参数。参数W和b的梯度也可以按照上述方法进行计算。

两种算法比较:RTRL算法和BPTT算法都是基于梯度求解参数,分别通过前向模式和反向模式应用链式法则来计算梯度。在RNN中一般输出维度要比输入维度少,因此BPTT算法的计算量会很小,但要保存计算过程中的梯度值,空间复杂度较高。RTRL算法不需要进行空间回传,比较适合用在在线学习或无限序列的任务中。

长期依赖

在BRTT算法中,将(公式1-6)展开得到(公式1-15):
δt,k=i=kt1(diag(f(zi))UT)δt,t \delta _{t,k}=\prod_{i=k}^{t-1} ( diag('f(z_i ))U^T )\delta _{t,t}
如果定义γdiag(f(zi))UT\gamma \approx || diag('f(z_i ))U^T ||,则(公式1-16):
δt,k=γtkδt,t \delta _{t,k}=\gamma ^{t-k} \delta _{t,t}
γ>1\gamma >1,当tk+t-k \rightarrow +\inftyγtk+\gamma ^{t-k} \rightarrow +\infty,会造成系统不稳定,称之为梯度爆炸(Gradient Exploding Problem),反之,若γ<1\gamma < 1,当tk+t-k \rightarrow +\inftyγtk0\gamma ^{t-k} \rightarrow 0,会出现和前馈神经网络类似的梯度消失问题(Gradient Vanishing Problem)。

注意:在循环神经网络中,梯度消失指的是并不是说LtU\frac{ \partial L_t}{ \partial U}的梯度消失了,而是Lthk\frac{ \partial L_t}{ \partial h_k}的梯度消失,当tkt-k很大时,即参数U的更新主要靠最近的几个状态来更新,长距离的状态对参数U没有影响。

当循环神经网络中使用的激活函数是Logistic或者tanh的时候,由于其导数小于1,并且权重矩阵U||U||也不会太大,因此,如果时间间隔t-k过大的话,也会出现梯度消失问题。所以一般采用 ReLU激活函数(关于激活函数的介绍可参考:神经网络中的激活函数介绍)。

虽然简单循环网络理论上可以建立长时间间隔的状态之间的依赖关系,但是由于梯度爆炸和梯度消失问题,实际上只能学习到短期的依赖关系,这样如果t时刻的输出yty_t依赖于tkt-k时刻的输入xtkx_{t-k},当间隔k比较大时,简单神经网络很难建模这种长距离的依赖关系,称之为长期依赖问题(Long-Term Dependences Problem)。

改进措施:

  • 选取合适的参数
  • 使用非饱和的激活函数

循环网络的梯度爆炸问题比较容易解决,一般通过梯度截断和权重衰减来避免。而梯度消失很难解决,通常是对模型进行调优来解决。

常见的循环神经网络结构

主要包含四种:

  • N:N
  • 1:N
  • N:1
  • N:M

N比N结构

N维输入对应N维输出,大致结构如下所示:

循环神经网络N比N结构

其常常用于处理以下问题:

  • 视频理解中获取视频每一帧标签,输入为视频解码后的图像,通过此结构,获取每一 帧的标签信息。这种场景一般用作视频理解的初期,对视频做初步的处理后, 后续可以基于这些标签信息进行语义分析,构建更为复杂的需求场景。
  • 股票价格预测。基于历史的股票信息输入,预测下一时刻或者未来的股票走势信息。

1比N结构

一维输入,N维输出,大致结构如下图所示:
循环神经网络1比N结构

还有一种结构是在同一信息在不同时刻输入到网络中,如下所示:
循环神经网络1比N结构

其常常用于处理以下问题:

  • 看图写描述 : 根据输入的 一张图 片,生成对这张图片的描述信息
  • 自动作曲 : 按照类别生成音乐

N比1结构

N维输入,一维输出,大致结构如下图所示:
循环神经网络N比1结构

其常常用于处理以下问题:

  • 视频理解中的获取视频每个场景的描述信息,或者获取整个影片的摘要信息。
  • 获取用户评价的情感信息,即根据用户的一句话的评论,来判断用户的喜好等情感信息 。

N比M结构

N维输入,M维输出,这种结构又被称为Encoder-Decoder模型,也可以称为Seq2Seq模型,这种模型的输入和输出可以不相等,该模型由两部分组成:编码部分和解码部分,大致结构如下图所示:
循环神经网络N比M结构

c的前半部分循环神经网络为编码部分,称之为Endcoder, c可以是s3的直接输出,或者 是对s3输出做一定的变换,也可以对编码部分所有的s1、s2、s3进行变换得到,这样c中就包 含了对X1、 Xz、码的编码信息 。c的后半部分循环神经网络为解码部分,称之为Decoder。c作为之前的状态编码,作为初始值,输入到Decoder当中。 Decoder经过循环处理,最终将信息解码输出。

除了上边所示的解码结构外,还有下图所示的结构:
循环神经网络N比M结构

N比M的循环神经网络结构更具有普遍性,现实环境中有很多基于该结构落地的场景,他可以解决如下问题:

  • 机器翻译:将不同语言作为输入,输出为非输入语言的类型,这也是Encoder-Decoder的经典用法
  • 文本摘要:输入一篇文章,输出这篇文章的摘要信息
  • 语音识别:输入一段语音,输出这段语音信息的文字

至此,循环神经网络(中)篇已经介绍完了,在下篇中会展开介绍更多的内容,欢迎关注。


【搜索与推荐Wiki】专注于搜索和推荐系统,尝试使用算法去更好的服务于用户,包括但不局限于机器学习,深度学习,强化学习,自然语言理解,知识图谱,还不定时分享技术,资料,思考等文章!

文章创建于: 2019-09-10 19:21:23

没有更多推荐了,返回首页