人工智能/机器学习基础知识——反向传播

本文链接：https://blog.csdn.net/WindGrin_/article/details/137617409

Backpropagation Algorithm

李宏毅

反向传播算法，分为两个部分：Forward pass和Backward pass

在这里插入图片描述

设 $L(w_1,w_2,w_3,...,w_n)$ 为Loss函数， $z = x_1w_1+x_2w_2+b$ 为前向传播（Forwardpropagation）公式， $a = σ (z)$ 为激活函数，代表下一个神经元的值。
由以上假设，根据梯度下降法，需计算出每个权重 $w_i$ 对于损失函数 $L$ 的偏导，然后进行参数更新，即 $\frac{∂L}{∂w_i}$ 这种方式在参数量较少，网络结构不复杂的情况下很容易便可求得。但在复杂网络如神经网络中，损失函数 $L$ 是一个包含千百万数量级参数的一个复合函数，想要直接对某个 $w_i$ 求得偏导比较困难。所以，反向传播简化了这一直接求偏导的过程，利用链式法则间接反向逐步求得每个参数 $w_i$ 的偏导，实现梯度传播以及参数更新。
Forward pass：
根据链式法则简化上述求导公式： $\frac{∂L}{∂w_1} = \frac{∂L}{∂z}\frac{∂z}{∂w_1}$ 公式右边后半部分可以直接求得： $\frac{∂z}{∂w_1} = x_1$ 所以，原式可简化为： $\frac{∂L}{∂w_1} = x_1\frac{∂L}{∂z}$
Backward pass：
对 $\frac{∂L}{∂z}$ 进一步分解得到： $\frac{∂L}{∂z} = \frac{∂L}{∂a}\frac{∂a}{∂z}$ 该式右边后半部分 $\frac{∂a}{∂z} = σ'(z)$ 由于激活函数都是已知的，所以该项也可以很容易算出。所以原式变为： $\frac{∂L}{∂z} = σ'(z)\frac{∂L}{∂a}$ 假设该节点后继续通过两个分支连着一个神经元（如图），则可进一步得到： $\frac{∂L}{∂z} = σ'(z)[\frac{∂L}{∂z'}\frac{∂z'}{∂a}+\frac{∂L}{∂z''}\frac{∂z''}{∂a}]$ 由于此时 $z' = aw_3+b'$ $z'' = aw_4+b''$ 所以，原式可简化为： $\frac{∂L}{∂z} = σ'(z)[w_3\frac{∂L}{∂z'}+w_4\frac{∂L}{∂z''}]$ 从而有： $\frac{∂L}{∂w_1} = x_1\frac{∂L}{∂z} = x_1σ'(z)[w_3\frac{∂L}{∂z'}+w_4\frac{∂L}{∂z''}]$
该式为反向传播算法核心公式，其表明了当前神经元上参数的梯度可由后一个神经元上参数的梯度求得。所以，只要从输出层算起，就可以一步步反向推出前面各层的参数梯度。

自动求导

人工计算麻烦，框架内自带自动求导

数值微分

Numerical Differentiation

用数值方法来计算函数𝑓(𝑥)的导数．函数𝑓(𝑥)的点𝑥的导数定义为

$f^{\prime}(x)=\lim _{\Delta x \rightarrow 0} \frac{f(x+\Delta x)-f(x)}{\Delta x}$
要计算函数𝑓(𝑥)在点𝑥的导数，可以对𝑥加上一个很少的非零的扰动Δx，通过上述定义来直接计算函数𝑓(𝑥)的梯度
不足
- 舍入误差
- 截断误差
- 计算复杂度