反向传播中的数学理解

最新推荐文章于 2024-02-22 09:30:00 发布

黄小猿

最新推荐文章于 2024-02-22 09:30:00 发布

阅读量599

点赞数

分类专栏：计算机视觉／深度学习文章标签：数学神经网络

本文链接：https://blog.csdn.net/qq_39422642/article/details/78702756

版权

计算机视觉／深度学习专栏收录该内容

14 篇文章 7 订阅

订阅专栏

前言
梯度的直观解释
用链式法则计算 $f(x)$
公式与代码

1.前言

在人工神经网络这篇文章中，除了介绍简单的神经网络，还举了一个非常详细的关于反向传播算法的传播过程，但这一次，希望通过更加直观的例子，来了解反向传播，同时会用到链式法则。深入理解反向传播的过程及其中的微妙变化，有助于我们更好的理解神经网络和调试我们的代码。

我们这次的核心问题就是：给定一个函数 $f(x)$ ，其中 $x$ 是一个输入向量，希望求得这个函数对应的梯度 $\nabla f(x)$ ，它代表了方向,也是模型学习的方向。
其中 $f(x)$ 一般对应着算法使用的损失函数，而 $x$ 则代表了输入的训练数据和神经网络的权重，正如你所知，训练数据是给定不变的，但是权重是可以改变的，我们通过调整权重参数，让神经网络学习出一套分类的判定标准。在实际应用中，我们会使用BP算法来求出参数 $w$ 对应的梯度，然后调整（更新）参数，让这组参数能更好的分类。

但有时，我们想要看一下我们的神经是什么样子的，也可以对x对梯度。

2.梯度的直观解释

假设有一个函数 $f(x,y) = x y$ ,如果你学过微积分，一定知道对 $x$ 求偏导，就是把除了x以外的所有参数，无论是 $y,还是w$ 都当成参数处理，只对 $x$ 求一次导就OK了。

f (x, y) = x y \to \partial f \partial x = y \partial f \partial y = x

$f(x,y) = x y \hspace{0.5in} \rightarrow \hspace{0.5in} \frac{\partial f}{\partial x} = y \hspace{0.5in} \frac{\partial f}{\partial y} = x$

定义：其实导数定义的就是一个函数的在一点处的变化率。

d f ( x ) d x = lim h \to 0 f ( x + h ) - f ( x ) h

$\frac {df(x)}{dx} =\lim_{h\ \to 0} \frac {f(x+h)-f(x)}{h}$ 左边表达的是将

f(x) $f(x)$ 对

x $x$ 求偏导，右边可以发现，当

h $h$ 很大的时候，就是两间的斜率表示了，如图，可以得到

lPQ $l_{PQ}$ 这条线,当

h →0 $h\ \to 0$ ,两点间的距离慢慢减少，最后两点可以近似认为是一个点的时候，就是与这条曲线相切了，就可以得到绿色这条线了。其实积分，积分，用的就是逼近原理。
这里写图片描述

那导数代表了什么呢？

The derivative on each variable tells you the sensitivity of the whole expression on its value.

翻译过来就是：导数反应了每个变量对函数值的影响程度。
我们先前说了梯度代表了方向，那梯度和导数的关系是怎么样的呢？
其实 $\nabla f$ 就是用偏导数表示的向量（有方向的），用上一个函数就是：

\nabla f = [\partial f \partial x, \partial f \partial y] = [y, x]

$\nabla f = [\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}] = [y, x]$ 用图像表示就是：
这里写图片描述

3.用链式法则计算 $f(x)$

为了理解链式法则，我们先用一个简答的例子:

f (x, y, z) = (x + y) z

$f(x,y,z)=(x+y)z$ ,这个式子依然很简单，我们可以把这个公式分成两部分：

q=x+y,f(q,z)=qz $q=x+y,f(q,z) = qz$ ，这两个式子和第一个式子是等价的。

先前我们已经知道怎么计算偏导数了：

\partial f \partial q = z, \partial f \partial z = q

$\frac{\partial f}{\partial q} = z, \frac{\partial f}{\partial z} = q$ 但是，

q=x+y $q=x+y$ 也是一个函数，对他也求导数：

\partial q \partial x = 1, \partial q \partial y = 1

$\frac{\partial q}{\partial x} = 1, \frac{\partial q}{\partial y} = 1$ 但我们最后关心的不是q的偏导数，我们最后关系的是

f $f$ 对

x,y,z $x,y,z$ 三个的偏导数，所以

f $f$ 对

x $x$ 求偏导就有:

\partial f \partial x = \partial f \partial q \partial q \partial x = z * 1

$\frac{\partial f}{\partial x} = \frac{\partial f}{\partial q} \frac{\partial q}{\partial x}=z*1$ 分别对

y,z $y,z$ 求偏导，就可以得到对应的梯度了。

用更复杂的例子，sigmoid函数大家都挺熟悉的：

σ (x) = 1 1 + e - x \to d σ ( x ) d x = e - x ( 1 + e - x ) 2 = (1 + e - x - 1 1 + e - x) (1 1 + e - x) = (1 - σ (x)) σ (x)

$\sigma(x) = \frac{1}{1+e^{-x}} \\\\ \rightarrow \hspace{0.3in} \frac{d\sigma(x)}{dx} = \frac{e^{-x}}{(1+e^{-x})^2} = \left( \frac{1 + e^{-x} - 1}{1 + e^{-x}} \right) \left( \frac{1}{1+e^{-x}} \right) = \left( 1 - \sigma(x) \right) \sigma(x)$

4.公式与代码

我们写代码的人可能最怕的就是看到一大堆的数学公式了，但是我们并不需要自己手动算他们，所以知道他们怎么用代码写出来就OK了，举个例子：

f (x, y) = x + σ ( y ) σ ( x ) + ( x + y ) 2

$f(x,y) = \frac{x + \sigma(y)}{\sigma(x) + (x+y)^2}$ 你可能会感觉这个公式还是挺复杂的，但只要你学会拆分，就一点都不难了。

x = 3 # example values
y = -4

# forward pass
sigy = 1.0 / (1 + math.exp(-y)) # sigmoid in numerator   #(1)
num = x + sigy # numerator                               #(2)
sigx = 1.0 / (1 + math.exp(-x)) # sigmoid in denominator #(3)
xpy = x + y                                              #(4)
xpysqr = xpy**2                                          #(5)
den = sigx + xpysqr # denominator                        #(6)
invden = 1.0 / den                                       #(7)
f = num * invden # done!