ML基本知识（十四）激活函数

最新推荐文章于 2022-05-06 09:44:57 发布

LightYoungLee

最新推荐文章于 2022-05-06 09:44:57 发布

阅读量181

点赞数

分类专栏： ML基本知识文章标签：神经网络

本文链接：https://blog.csdn.net/weixin_37688445/article/details/115432552

版权

16 篇文章 1 订阅

订阅专栏

激活函数本质

增加神经网络的非线性型，具体而言为提升神经网络的拟合能力。

在这里插入图片描述

$f'(x)=\left\{\begin{matrix} 1 \ \ \ \ if \ x > 0 \\ 0 \ \ \ \ if \ x \leqslant 0 \end{matrix}\right.$

容易梯度消失，如下情况网络参数W的梯度会消失：W初始化为一个很小的正值，与正值x相乘后得到y(正值)，之后y经过relu得到z，根据链式法则对W进行梯度计算得 $\frac{\partial L}{\partial W}=\frac{\partial L}{\partial z}\frac{\partial z}{\partial y}\frac{\partial y}{\partial W}=\frac{\partial L}{\partial z}\cdot 1 \cdot x$ ，当 $\frac{\partial L}{\partial z}$ >0且较大时，W更新后的取值 $W=W-\alpha \frac{\partial L}{\partial z}\cdot 1 \cdot x$ < 0，而当下一轮正值x与负值W相乘后得到y(负值)，根据relu计算公式得到 $\frac{\partial z}{\partial y}$ 为0，直接导致W的梯度 $\frac{\partial L}{\partial W}=\frac{\partial L}{\partial z}\frac{\partial z}{\partial y}\frac{\partial y}{\partial W}$ 为0，进而W的取值得不到更新，进而形成梯度消失的现象。
relu不会对数据做幅度压缩，所以如果数据的幅度不断扩张，那么模型的层数越深，幅度的扩张也会越厉害，最终会影响模型的表现。
在0点不可导，造成推导结果不稳定。

在这里插入图片描述
$f(x)=\left\{\begin{matrix} x \ \ \ \ if \ x > 0 \ \ \ \ \ \ \ \ .\\ \alpha x \ \ \ if \ x\leqslant 0, \alpha > 0 \end{matrix}\right.$

$f(x)=\left\{\begin{matrix} 1 \ \ \ \ if \ x > 0 \ \ \ \ \ \ \ \ .\\ \alpha \ \ \ if \ x\leqslant 0, \alpha > 0 \end{matrix}\right.$

$=\begin{cases} x_i & \text{ if } x_i>0 \\ a_i x_i & \text{ if } x\leqslant 0 \end{cases}$

多了一个参数，非线性变换的效果更好。
参数更新时采用的是momentum更新， $\Delta a_i := \mu\Delta a_i + \epsilon \frac{\partial \varepsilon }{\partial a_i}$ 。
更新 $a_i$ 时不添加L2正则化，这样会将 $a_i$ 直接干到0附近。