激活函数ReLU与Leaky ReLU的区别 (1)

最新推荐文章于 2024-08-02 15:42:29 发布

平民科技

最新推荐文章于 2024-08-02 15:42:29 发布

阅读量1.7w

点赞数 10

本文链接：https://blog.csdn.net/qq_37342061/article/details/99090590

版权

1、ReLU（Rectified Line Unit，ReLU）:修正线性单元，神经网络中常用的激活函数。ReLU的输入是x，当x>0, 其梯度不为0, 可用于权重更新；当x<0, 其梯度为0, 权重无法更新，后续训练中处于静默状态（学习速率变慢，神经元处于不学习状态）。

函数图像：

表达式：

（1）前向过程：ReLU(x)=max(0,x)

（2）后向传播：

a) 将ReLU看作神经网络中的一层，设第 $\l$ 层输出是 $x^{l}$ , 然后输入ReLU激活函数后输出是 $x^{l+1}$

b)设损失函数L关于第 {l} 层输出 $x^{l}$ 的偏导是

$\delta^{l}=\frac{\partial L}{\partial x^{l}} \\\\ = \frac{\partial L}{\partial x^{l+1}}\cdot \frac{\partial x^{l+1}}{\partial x^{l}} \\\\= \delta^{l+1}\cdot \frac{\partial ReLU(x^{l}))}{\partial x^{l}}=\delta^{l+1}\cdot\begin{cases} 1 & \text{ if } x^{l}>0 \\ 0 & \text{ if } x^{l}<=0 \end{cases}=\begin{cases} \delta ^{l+1} & \text{ if } x^{l}>0 \\ 0 & \text{ if } x^{l}<= 0 \end{cases}$

2、Leaky Relu：（与Relu的不同之处在于负轴保留了非常小的常数leak，使得输入信息小于0时，信息没有完全丢掉，进行了相应的保留），即ReLU在取值小于零部分没有梯度，LeakyReLU在取值小于0部分给一个很小的梯度

函数图像：

表达式：

（1）前向过程：

$Leaky Relu(x) = \begin{Bmatrix} x,\: \; \: \, x>0 & \\ leak*x,\: \; \: \, x<=0& \end{matrix}$

leak是小数，例如leak=0.1

（2）后向传播：

a) 将Leaky ReLU看作神经网络中的一层，设第 $\l$ 层输出是 $x^{l}$ , 然后输入Leaky ReLU激活函数后输出是 $x^{l+1}$

b)设损失函数L关于第 {l} 层输出 $x^{l}$ 的偏导是

$\delta^{l}=\frac{\partial L}{\partial x^{l}} \\\\ = \frac{\partial L}{\partial x^{l+1}}\cdot \frac{\partial x^{l+1}}{\partial x^{l}} \\\\= \delta^{l+1}\cdot \frac{\partial Leaky ReLU(x^{l}))}{\partial x^{l}}=\delta^{l+1}\cdot\begin{cases} 1 & \text{ if } x^{l}>0 \\ leak & \text{ if } x^{l}<=0 \end{cases}=\begin{cases} \delta ^{l+1} & \text{ if } x^{l}>0 \\ leak*\delta ^{l+1} & \text{ if } x^{l}<= 0 \end{cases}$