通过时间的方向传播(Backpropagation through time)

来源:Coursera吴恩达深度学习课程

之前我们已经学过了循环神经网络的基础结构,在本节文章中我们将来了解反向传播(back propagation)是怎样在循环神经网络中运行的,它还有个很别致的名字:叫做“通过(穿越)时间反向传播(backpropagation through time)”。。和之前一样,当你在编程框架中实现循环神经网络时,编程框架通常会自动处理反向传播。Andrew认为,在循环神经网络中,对反向传播的运行有一个粗略的认识还是非常有用的,让我们来一探究竟。

对于前向传播(上图蓝色箭头所指方向)怎样在神经网络中从左到右地计算这些激活项,直到输出所有的预测结果。而对于反向传播(上图红色箭头所指方向),计算方向与前向传播基本上是相反的。

如上图,我们分析一下前向传播(forward propagation)的计算,现在有一个输入(input)序列,x^<1>,x^<2>,...,x^,为了计算出a^<1>,还需要参数W_a和b_a,所有的这些激活项都要取决于参数W_a和b_a,接着使用参数W_y和b_y可以计算出第一个预测值y帽^<1>。(参数如上图绿色标记)

为了计算反向传播,还需要一个损失函数。我们先定义一个元素的损失函数

我们将它定义为标准逻辑回归损失函数,也叫交叉熵损失函数(Cross Entropy Loss)。这是关于单个位置上或者说某个时间步t上某个单词的预测值的损失函数。

现在我们来定义整个序列的损失函数,通过将每一个单独时间步的顺势函数加起来,将L定义为

上图就是完整的计算图(computation graph),反向传播算法需要在相反的方向上进行计算和传递信息(红色标记)。最终把前向传播的箭头都反过来,就可以计算出所有合适的量,然后通过导数相关的参数,用梯度下降法(gradient descent)来更新参数。

在这个反向传播的过程中,最重要的信息传递或者说最重要的递归运算就是这个从右到左的运算(红色圆圈标记),这个算法有一个很别致的名字,叫做“通过(穿越)时间反向传播(backpropagation through time)”。取这个名字的原因是对于前向传播,你需要从左到右进行计算,在这个过程中,时间t不断增加。而对于反向传播,你需要从右到左进行计算,就像时间倒流。

说明:记录学习笔记,如果错误欢迎指正!转载请联系我。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值