BPTT深度理解

本博客适合那些BP网络很熟悉的读者

一 基本结构和前向传播

符号解释:

1. cltctl:t时刻第l层的神经元的集合,因为cltctl表示的是一层隐藏层,所以图中一个圆圈表示多个神经元。

2. hlthtl:第l层在t时刻的输出。因为hlthtl是一层隐藏层的输出,所以表示的是一个向量。

3. LjLj:表示的是在j时刻,网络的输出的值和目标输出值的平方差,L表示的是所有时刻的平方差的和。

4. WvWv:是一个矩阵,表示的是输入x到c的权值矩阵,那么他的大小是(c的维度)x(x的维度)。

5. WhWh:是一个矩阵,表示的是输入同一层的上一个时刻h到c的权值矩阵,那么他的大小是(c的维度)x(h的维度)。

6. b:表示的是偏置。

(PS:个人感觉c,h和W这些符号表示的维度很重要,因为理解了维度,才能更好的理解网络的结构,才能更好的去实现这个结构。另外在这里我们要学习的参数是WvWvWhWh)
图中左边的网络结构是一个RNN的时序上展开的结构,所有的列表示的是同一个神经网络,只是时间依次排开而已,紫色(横向)的箭头表示的是时序上的联系。蓝色(竖向)的箭头表示的是空间上的传播(也就是普通的前向传播),而紫色(横向)的箭头表示的上一个时刻隐藏层的输出和当前时刻上一层的输出共同组成当前隐藏层的的输入。例如:cl+1t+1ct+1l+1表示的是t+1时刻第l+1层,那么这一层的输入是该层的上一个时刻的输出hl+1thtl+1和当前时刻的上一层的输出hlt+1ht+1l共同作为cl+1t+1ct+1l+1的输入。

图中右边的公式分别是ct+1lct+1l的输入;ct+1lct+1l的输入的输出,用ht+1lht+1l表示;所有时刻的平方差的和。

二 梯度爆炸或梯度消失

2.1 Back-Propagation Through Time (BPTT)算法

上图左边的网络结构表示的反向传播的过程。其中绿色的表示的是时间上的反向传播的过程,红色的是同一个时刻空间上的传播的过程(其实也就是普通前馈神经网络的误差过程),

上图右边的公式表示的反向传播的计算,n个输入的误差平方和的关于每个神经元的偏导(也就是δδ),这个过程使用的是链式求导法则。而右边是关于δltδtl的偏导。

第一个公式:将与δltδtl同一个误差时刻(红色部分,也就是普通的前馈传播造成的误差)分离出来,其他时刻的误差(绿色部分)是时序上的,这个也是造成梯度消失或爆炸的原因。

第二个公式,LtLt关于cltctl的分解过程,这是BP网络的分解方式。

第三个公式,Lj∑Lj关于cltctl的分解过程,这和BP网络的分解方式类似。

2.2 BPTT算法存在的问题

上图表示的是从Lj∑Lj中取出最后一个Lt+nLt+n求关于cltctl,存在n个||Wh||||δ(clτ)||||Wh||||δ′(cτl)||相乘,一般来说||δ(clτ)||||δ′(cτl)||小于等于0.25,如果WhWh小于4,那么就会出现梯度消;如果大于4,那么就会出现梯度爆炸。

2.3 解决方法:Constant Error Carrousel (CEC)


http://www.cnblogs.com/xweiblogs/p/5914622.html#undefined

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值