【面筋】神经网络推导

最新推荐文章于 2023-01-12 17:31:55 发布

Finks_chen

最新推荐文章于 2023-01-12 17:31:55 发布

阅读量120

点赞数

分类专栏：面筋

本文链接：https://blog.csdn.net/Finks_Chen/article/details/117967404

版权

【面筋】神经网络推导

激活函数

为什么要激活函数？而且还是非线性的激活函数？没了激活函数会怎样？

1）深度神经网络可以看做一个特征映射函数，使用激活函数是为了提供非线性映射，从而把特征转换到高纬空间

2）为啥一定是非线性激活函数，如果使用线性函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合，加深神经网络的层数就没有什么意义了。不加激活函数和加线性激活函数本质上没有区别；

关于这部分理论，可以用通用近似原理来证明：人工神经网络最有价值的地方可能就在于，它可以在理论上证明：“一个包含足够多隐含层神经元的多层前馈网络，能以任意精度逼近任意预定的连续函数”。这个定理即为通用近似原理(Universal Approximation Theorem) ；

常用的激活函数

Sigmoid函数：
$\sigma(x)=\frac{1}{1+\mathrm{e}^{-x}}$
优点：平滑易求导；输出范围[0,1], 输出值可以作为概率，具备可解释性

缺点：导函数 $0\leq\sigma(x)^{\prime}=\sigma(x)(1-\sigma(x))\leq \frac{1}{4}$ ，反向传播易导致梯度消失；含有指数运算较为耗时；输出值不以0为中心，可能导致模型收敛速度慢；
Tanh函数：
$\tanh(x)=2 \sigma(2 x)-1=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$

优点：平滑易求导；输出值以0为中心，模型收敛快

缺点：导函数 $0\leq\tanh(x)^{\prime}=1-\tanh(x)^2\leq 1$ ，反向传播易导致梯度消失；含有指数运算较为耗时；
ReLU函数：
$\max(0,x)$

优点：在正区间上解决了梯度消失的问题；计算简单，因为只需判断是否大于0；收敛速度比上面两个激活函数要快

缺点：输出值为0的概率太大，容易导致神经元死亡，无法重新激活

改进方法：初始化权重时别把神经元弄死；学习率不要设置太高以防权重更新幅度太大把神经元弄死；采用动态调整学习率的优化算法；采用Leaky ReLU/PReLU函数替代
Leaky ReLU/PReLU函数：
$m a x (a x, x)$

优点：修正了ReLU函数的缺点，如果 $\alpha$ 是固定值则为Leaky ReLU，如果 $\alpha$ 需要自己学出来则为PReLU;

手推证明：sigmoid会导致其下层所有神经元的权重更新方向一致；

1）假设两个神经元，其参数为 $w_1, w_2$ , 可以计算得到神经元输出，

$h^t=w_1y_1^{t-1}+w_2y_2^{t-1}$

2）通过激活函数得到该层的输出；

$y^t=f(h^t)$

3）计算两个神经元的参数 $w_1,w_2$ 的梯度：

$\cfrac{\partial Loss}{\partial w_1}=\cfrac{\partial Loss}{\partial y^t}\cdot\cfrac{\partial y^t}{\partial h^t}\cdot\cfrac{\partial h^t}{\partial w_1}=\cfrac{\partial Loss}{\partial y^t}\cdot\cfrac{\partial y^t}{\partial h^t}\cdot y_1^{t-1}$
$\cfrac{\partial Loss}{\partial w_2}=\cfrac{\partial Loss}{\partial y^t}\cdot\cfrac{\partial y^t}{\partial h^t}\cdot\cfrac{\partial h^t}{\partial w_2}=\cfrac{\partial Loss}{\partial y^t}\cdot\cfrac{\partial y^t}{\partial h^t}\cdot y_2^{t-1}$

4）分析结果：其中， $y_1^{t-1}$ 和 $y_2^{t-1}$ 都是上层神经元的输出，如果上层神经元采用的是Sigmoid函数激活的话，那么 $y_1^{t-1}$ 和 $y_2^{t-1}$ 均恒大于0，此时 $w_1,w_2$ 的梯度正负号恒一致，从而也就导致权重更新方向一致。

不过这是只计算单个样本损失就更新梯度的情形，通常训练都是采用mini-batch梯度下降，所以会同时算多个样本的损失，然后累加所有样本损失给出的梯度更新值以后作为最终梯度更新值，此时更新时不一定方向是一致的，比如：
$y_1^t:\Delta w_1=+6,\Delta w_2=+0.5$
$y_2^t:\Delta w_1=-0.2,\Delta w_2=-3$
那么 $w_1$ 和 $w_2$ 总的梯度更新幅度为
$\Delta w_1=+5.8,\Delta w_2=-2.5$
显然两者的更新方向此时不再一致。

手推证明：ReLU神经元死亡将导致权重无法更新；

1）假设两个神经元；得到输出的就算公式；
$h^t=w_1y_1^{t-1}+w_2y_2^{t-1}$
$y^t=\text{ReLU}(h^t)$

2）计算两个神经元参数的梯度，如果此时第 $t$ 层神经元死亡的话，也即 $y^t$ 恒等于0，那么
$\cfrac{\partial Loss}{\partial w_1}=\cfrac{\partial Loss}{\partial y^t}\cdot\cfrac{\partial y^t}{\partial h^t}\cdot\cfrac{\partial h^t}{\partial w_1}=\cfrac{\partial Loss}{\partial y^t}\cdot 0 \cdot y_1^{t-1}=0$
$\cfrac{\partial Loss}{\partial w_2}=\cfrac{\partial Loss}{\partial y^t}\cdot\cfrac{\partial y^t}{\partial h^t}\cdot\cfrac{\partial h^t}{\partial w_2}=\cfrac{\partial Loss}{\partial y^t}\cdot 0 \cdot y_2^{t-1}=0$
显然，此时第 $t$ 层神经元的权重永远无法更新，从而也就导致永远无法激活

优化算法

整体叙述框架参见：https://zhuanlan.zhihu.com/p/32230623 ，具体内容参见：https://blog.csdn.net/u010089444/article/details/76725843 和 https://ruder.io/optimizing-gradient-descent/index.html

参数更新框架：

基本框架：定义当前时刻待优化参数为 $\theta_t\in R^{d}$ ，损失函数为 $J(\theta)$ ，学习率为 $\eta$ ，参数更新框架为：

计算损失函数关于当前参数的梯度： $g_t=\nabla J(\theta_t)$ ；
根据历史梯度计算一阶动量（一次项）和二阶动量（二次项）： $m_t=\phi(g_1,g_2,...,g_t),V_t=\psi(g_1,g_2,...,g_t)$ ；
计算当前时刻的下降梯度： $\Delta\theta_t=-\eta\cdot\cfrac{m_t}{\sqrt{V_t}}$
根据下降梯度更新参数： $\theta_{t+1}=\theta_t+\Delta\theta_t$

SGD

SGD：由于SGD没有动量的概念，也即没有考虑历史梯度，所以当前时刻的动量即为当前时刻的梯度 $m_t=g_t$ ，且二阶动量 $V_t=E$ ，所以SGD的参数更新公式为
$\Delta\theta_t=-\eta\cdot g_t$
$\theta_{t+1}=\theta_t-\eta\cdot g_t$
缺点：下降速度慢，而且可能会在沟壑（还有鞍点）的两边持续震荡，停留在一个局部最优点。

SGD-M

SGD with Momentum：为了抑制SGD的震荡，SGDM认为梯度下降过程可以加入惯性。下坡的时候，如果发现是陡坡，那就利用惯性跑的快一些。SGDM全称是SGD with momentum，在SGD基础上引入了一阶动量。而所谓的一阶动量就是该时刻梯度的指数加权移动平均值： $\eta\cdot m_t:=\beta\cdot m_{t-1}+\eta\cdot g_t$ （其中当前时刻的梯度 $g_t$ 并不严格按照指数加权移动平均值的定义采用权重 $1-\beta$ ，而是使用我们自定义的学习率 $\eta$ ），那么为什么要用移动平均而不用历史所有梯度的平均？因为移动平均存储量小，且能近似表示历史所有梯度的平均。由于此时仍然没有二阶动量，所以 $V_t=E$ ，那么SGDM的参数更新公式为
$\Delta\theta_t=-\eta\cdot m_t=-\left(\beta m_{t-1}+\eta g_t\right)$
$\theta_{t+1}=\theta_t-\left(\beta m_{t-1}+\eta g_t\right)$
所以，当前时刻参数更新的方向不光取决于当前时刻的梯度，还取决于之前时刻的梯度，特别地，当 $\beta=0.9$ 时， $m_t$ 近似表示的是前10个时刻梯度的指数加权移动平均值，而且离得越近的时刻的梯度权重也越大。
优点：利用历史梯度作为惯性克服了SGD可能会在沟壑的两边持续震荡，停留在一个局部最优点的缺点，同时还加速了收敛。
缺点：对于比较深的沟壑有时用Momentum也没法跳出
- 指数加权移动平均值（exponentially weighted moving average，EWMA）：假设 $v_{t-1}$ 是 $t - 1$ 时刻的指数加权移动平均值， $\theta_t$ 是 $t$ 时刻的观测值，那么 $t$ 时刻的指数加权移动平均值为
  $\begin{aligned} v_t&=\beta v_{t-1}+(1-\beta)\theta_t \\ &=(1-\beta)\theta_t+\sum_{i=1}^{t-1}(1-\beta)\beta^i\theta_{t-i} \end{aligned}$
  其中 $\leq \beta < 1,v_0=0$ 。显然，由上式可知， $t$ 时刻的指数加权移动平均值其实可以看做前 $t$ 时刻所有观测值的加权平均值，除了第 $t$ 时刻的观测值权重为 $1-\beta$ 外，其他时刻的观测值权重为 $(1-\beta)\beta^i$ 。由于通常对于那些权重小于 $\frac{1}{e}$ 的观测值可以忽略不计，所以忽略掉那些观测值以后，上式就可以看做在求加权移动平均值。那么哪些项的权重会小于 $\frac{1}{e}$ 呢？由于
  $\lim_{n \rightarrow +\infty} \left(1-\frac{1}{n}\right)^n = \frac{1}{e} \approx 0.3679$
  若令 $n=\frac{1}{1-\beta}$ ，则
  $\lim_{n \rightarrow +\infty} \left(1-\frac{1}{n}\right)^n =\lim_{\beta \rightarrow 1} \left(\beta\right)^{\frac{1}{1-\beta}}=\frac{1}{e} \approx 0.3679$
  所以，当 $\beta\rightarrow 1$ 时，那些 $i\geq\frac{1}{1-\beta}$ 的 $\theta_{t-i}$ 的权重 $(1-\beta)\beta^i$ 一定小于 $\frac{1}{e}$ 。代入计算可知，那些权重小于 $\frac{1}{e}$ 的观测值就是近 $\frac{1}{1-\beta}$ 个时刻之前的观测值。例如当 $t=20,\beta=0.9$ 时， $\theta_1,\theta_2,..,\theta_9,\theta_{10}$ 的权重都是小于 $\frac{1}{e}$ 的，因此可以忽略不计，那么此时就相当于在求 $\theta_11,\theta_12,..,\theta_19,\theta_{20}$