深度学习与计算机视觉系列(5)_反向传播与它的直观理解

原创

于 2015-12-16 08:31:15 发布 · 1.9w 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#计算机视觉 #深度学习 #反向传播 #神经网络 #数据挖掘

本文详细介绍了反向传播的原理和直观理解，从高数中的梯度和偏导基础知识开始，通过链式法则解释复杂函数的偏导计算，并通过具体的Sigmoid函数例子和神经网络实例阐述反向传播的过程。反向传播实质上是利用梯度下降法更新神经网络权重的一种方法，通过局部到全局的链式法则，逐层计算损失函数对每个参数的梯度，从而优化网络性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：寒小阳 && 龙心尘
时间：2015年12月。
出处：
http://blog.csdn.net/han_xiaoyang/article/details/50321873
http://blog.csdn.net/longxinchen_ml/article/details/50323183
声明：版权所有，转载请联系作者并注明出处

1. 引言

其实一开始要讲这部分内容，我是拒绝的，原因是我觉得有一种写高数课总结的感觉。而一般直观上理解反向传播算法就是求导的一个链式法则而已。但是偏偏理解这部分和其中的细节对于神经网络的设计和调整优化又是有用的，所以硬着头皮写写吧。

问题描述与动机：

大家都知道的，其实我们就是在给定的图像像素向量x和对应的函数 $f(x)$ ，然后我们希望能够计算 $f$ 在 $x$ 上的梯度( $\nabla f(x)$ )
我们之所以想解决这个问题，是因为在神经网络中， $f$ 对应损失函数 $L$ ，而输入 $x$ 则对应训练样本数据和神经网络的权重 $W$ 。举一个特例，损失函数可以是SVM loss function，而输入则对应样本数据 $(x_i,y_i),i=1 \ldots N$ 和权重以及bias $W,b$ 。需要注意的一点是，在我们的场景下，通常我们认为训练数据是给定的，而权重是我们可以控制的变量。因此我们为了更新权重的等参数，使得损失函数值最小，我们通常是计算 $f$ 对参数 $W,b$ 的梯度。不过我们计算其在 $x_i$ 上的梯度有时候也是有用的，比如如果我们想做可视化以及了解神经网络在『做什么』的时候。

2.高数梯度/偏导基础

好了，现在开始复习高数课了，从最简单的例子开始，假如 $f(x,y)=xy$ ，那我们可以求这个函数对 $x$ 和 $y$ 的偏导，如下：

f (x, y) = x y \to \partial f \partial x = y \partial f \partial y = x

$f(x,y) = x y \hspace{0.5in} \rightarrow \hspace{0.5in} \frac{\partial f}{\partial x} = y \hspace{0.5in} \frac{\partial f}{\partial y} = x$

2.1 解释

我们知道偏导数实际表示的含义：一个函数在给定变量所在维度，当前点附近的一个变化率。也就是：

d f ( x ) d x = lim h \to 0 f (

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。