CS231n 反向传播 Backprop

最新推荐文章于 2020-08-06 20:14:17 发布

ferb2015

最新推荐文章于 2020-08-06 20:14:17 发布

阅读量188

点赞数 1

分类专栏： CS231n 文章标签： BP算法反向传播

本文链接：https://blog.csdn.net/eqiang8848/article/details/82255506

版权

CS231n 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

https://zhuanlan.zhihu.com/p/21407711?refer=intelligentunit

反向传播梯度（偏导数）

函数关于每个变量的导数指明了整个表达式对于该变量的敏感程度。

先考虑一个简单的二元乘法函数f(x,y)=xy。对两个输入变量分别求偏导数还是很简单的：
$\displaystyle f(x,y)=xy \to \frac {df}{dx}=y \quad \frac {df}{dy}=x$ 若 $x=4,y=-3，则f(x,y)=-12$ ， $x$ 的导数 $\frac{\partial f}{\partial x}=-3$ 。这就说明如果将变量x的值变大一点，整个表达式的值就会变小（原因在于负号），而且变小的量是x变大的量的三倍。

对前向传播变量进行缓存：在计算反向传播时，前向传播过程中得到的一些中间变量非常有用。在实际操作中，最好代码实现对于这些中间变量的缓存，这样在反向传播的时候也能用上它们。如果这样做过于困难，也可以（但是浪费计算资源）重新计算它们。

在不同分支的梯度要相加：如果变量x，y在前向传播的表达式中出现多次，那么进行反向传播的时候就要非常小心，使用+=而不是=来累计这些变量的梯度（不然就会造成覆写）。这是遵循了在微积分中的多元链式法则，该法则指出如果变量在线路中分支走向不同的部分，那么梯度在回传的时候，就应该进行累加。

回传流中的模式
神经网络中最常用的加法、乘法和取最大值这三个门单元，加法操作将梯度相等地分发给它的输入。取最大操作将梯度路由给更大的输入。乘法门拿取输入激活数据，对它们进行交换，然后乘以梯度。

ferb2015

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS231n 反向传播 Backprop

https://zhuanlan.zhihu.com/p/21407711?refer=intelligentunit反向传播梯度（偏导数）函数关于每个变量的导数指明了整个表达式对于该变量的敏感程度。先考虑一个简单的二元乘法函数f(x,y)=xy。对两个输入变量分别求偏导数还是很简单的： f(x,y)=xy→dfdx=ydfdy=xf(x,y)=xy→dfdx=yd...
复制链接

扫一扫