深度学习与计算机视觉系列(5)_反向传播与它的直观理解

最新推荐文章于 2025-10-15 08:26:45 发布

原创

最新推荐文章于 2025-10-15 08:26:45 发布 · 4.5w 阅读

64 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习 #后向传播 #梯度回传 #偏导

本文详细介绍了反向传播算法在深度学习和计算机视觉中的作用，通过对高数中梯度和偏导的基础回顾，阐述了反向传播的链式法则和直观理解。通过Sigmoid函数的例子，展示了反向传播在复杂函数计算中的应用，以及在实际编程中如何高效实现。文章还讨论了反向传播在神经网络中计算梯度的常见模式和向量化运算的重要性。

作者：寒小阳
时间：2015年12月。
出处：http://blog.csdn.net/han_xiaoyang/article/details/50321873
声明：版权所有，转载请联系作者并注明出处

1. 引言

其实一开始要讲这部分内容，我是拒绝的，原因是我觉得有一种写高数课总结的感觉。而一般直观上理解反向传播算法就是求导的一个链式法则而已。但是偏偏理解这部分和其中的细节对于神经网络的设计和调整优化又是有用的，所以硬着头皮写写吧。

问题描述与动机：

大家都知道的，其实我们就是在给定的图像像素向量x和对应的函数 $f (x)$ ，然后我们希望能够计算 $f$ 在 $x$ 上的梯度( $\nabla f(x)$ )
我们之所以想解决这个问题，是因为在神经网络中， $f$ 对应损失函数 $L$ ，而输入 $x$ 则对应训练样本数据和神经网络的权重 $W$ 。举一个特例，损失函数可以是SVM loss function，而输入则对应样本数据 $(x_i,y_i),i=1 \ldots N$ 和权重 $W$ 以及偏移项 $b$ 。需要注意的一点是，在我们的场景下，通常我们认为训练数据是给定的，而权重是我们可以控制的变量。因此我们为了更新权重的等参数，使得损失函数值最小，我们通常是计算 $f$ 对参数 $W, b$ 的梯度。不过我们计算其在 $x_i$ 上的梯度有时候也是有用的，比如如果我们想做可视化以及了解神经网络在『做什么』的时候。

2.高数梯度/偏导基础

好了，现在开始复习高数课了，从最简单的例子开始，假如 $f (x, y) = x y$ ，那我们可以求这个函数对 $x$ 和 $y$ 的偏导，如下：
$\hspace{0.5in} \rightarrow \hspace{0.5in} \frac{\partial f}{\partial x} = y \hspace{0.5in} \frac{\partial f}{\partial y} = x$

2.1 解释

我们知道偏导数实际表示的含义：一个函数在给定变量所在维度，当前点附近的一个变化率。也就是：
$\frac{df(x)}{dx} = \lim_{h\ \to 0} \frac{f(x + h) - f(x)}{h}$
以上公式中的 $\frac{d}{dx}$ 作用在 $f$ 上，表示对x求偏导数，表示的是x维度上当前点位置周边很小区域的变化率。举个例子，如果 $x = 4, y = - 3$ ，而 $f (x, y) = - 12$ ，那么x上的偏导 $\frac{\partial f}{\partial x} = -3$