0_3-激活函数的反向传播-ReLU、LeakyReLU、PReLU、ELU、SELU

最新推荐文章于 2024-08-02 15:42:29 发布

yizt

最新推荐文章于 2024-08-02 15:42:29 发布

阅读量8.7k

点赞数 5

分类专栏： numpy构建神经网络文章标签：激活函数 ReLU ELU SELU 反向传播

本文链接：https://blog.csdn.net/csuyzt/article/details/82320589

版权

numpy构建神经网络专栏收录该内容

13 篇文章 13 订阅

订阅专栏

numpy实现神经网络系列

工程地址：https://github.com/yizt/numpy_neuron_network

基础知识

0_1-全连接层、损失函数的反向传播

0_2_1-卷积层的反向传播-单通道、无padding、步长1

0_2_2-卷积层的反向传播-多通道、无padding、步长1

0_2_3-卷积层的反向传播-多通道、无padding、步长不为1

0_2_4-卷积层的反向传播-多通道、有padding、步长不为1

0_2_5-池化层的反向传播-MaxPooling、AveragePooling、GlobalAveragePooling、GlobalMaxPooling

0_3-激活函数的反向传播-ReLU、LeakyReLU、PReLU、ELU、SELU

0_4-优化方法-SGD、AdaGrad、RMSProp、Adadelta、Adam

DNN练习

1_1_1-全连接神经网络做线性回归

1_1_2-全连接神经网络做mnist手写数字识别

CNN练习

2_1-numpy卷积层实现

2_2-numpy池化层实现

2_3-numpy-cnn-mnist手写数字识别

本文目录

本文介绍常见的激活函数的前向过程及反向传播过程

依赖知识

a) 熟悉全连接层、损失函数的反向传播

b) 熟悉ReLU、LeakyReLU、PReLU、ELU、SELU

ReLU

整流线性单元Rectified Linear Unit

前向过程

R e L U (z) = {z 0 z > 0 z < = 0 (1)

$ReLU(z)=\begin{cases} z & z>0 \\ 0 & z<=0 \tag 1 \end{cases}$

后向过程

a) 我们将激活函数也看做一层, 设第 $l$ 层输出为 $z^l$ , 经过激活函数后的输出为 $z^{l+1}$

b) 记损失函数L关于第 $l$ 层的输出 $z^l$ 的偏导为 $\delta^l = \frac {\partial L} {\partial z^l}$

则损失函数L关于关于第l层的偏导如下：

δ l = \partial L \partial z l + 1 \partial z l + 1 \partial z l = δ l + 1 \partial R e L U ( z l ) \partial z l = δ l + 1 {10 z l > 0 z l < = 0 = {δ l + 1 0 z l > 0 z l < = 0 (1) (2) (3) (2)

$\begin{align} &\delta^l = \frac {\partial L} {\partial z^{l+1}} \frac {\partial z^{l+1}} {\partial z^{l}} \\ &=\delta^{l+1} \frac {\partial ReLU(z^l)} {\partial z^{l}} \\ &=\delta^{l+1} \begin{cases} 1 & z^l>0 \\ 0 & z^l<=0 \end{cases} \\ &= \begin{cases} \delta^{l+1} & z^l>0 \\ 0 & z^l<=0 \tag 2 \end{cases} \end{align}$

LeakyReLU

ReLU在取值小于零部分没有梯度，LeakyReLU在取值小于0部分给一个很小的梯度

前向过程

L e a k y R e L U (z) = {z α z z > 0 z < = 0, α = 0.1 (3)

$LeakyReLU(z)=\begin{cases} z & z>0 \\ \alpha z & z<=0, \alpha=0.1 \tag 3 \end{cases}$

后向过程

同Relu可知损失函数L关于关于第l层的偏导为:

δ l = {δ l + 1 α δ l + 1 z l > 0 z l < = 0, α = 0.1 (4)

$\begin{align}&\delta^l = \begin{cases} \delta^{l+1} & z^l>0 \\ \alpha\delta^{l+1} & z^l<=0, \alpha=0.1 \tag 4 \end{cases} \end{align}$

PReLU

参数化ReLU，形式同LeakyRelu,不过 $\alpha$ 不是固定的常量而是根据数据学习到的。

论文地址：https://arxiv.org/pdf/1502.01852.pdf

前向过程

P R e L U (z) = {z α z z > 0 z < = 0, α 是 与 z 相 同 形 状 的 变 量 (5)

$PReLU(z)=\begin{cases} z & z>0 \\ \alpha z & z<=0, \alpha是与z相同形状的变量 \tag 5 \end{cases}$

后向过程

a) 同LeakyRelu可知损失函数L关于关于第l层的偏导为:

δ l = {δ l + 1 α δ l + 1 z l > 0 z l < = 0, α 是 需 要 学 习 的 参 数 (6)

$\begin{align}&\delta^l = \begin{cases} \delta^{l+1} & z^l>0 \\ \alpha\delta^{l+1} & z^l<=0,\alpha是需要学习的参数 \tag 6 \end{cases} \end{align}$

b) 损失函数L关于关于参数 $\alpha$ 的偏导为:

\partial L \partial α = \partial L \partial z l + 1 \partial z l + 1 \partial α = δ l + 1 \partial P R e L U ( z l ) \partial α = δ l + 1 {0 z l z l > 0 z l < = 0 = {0 δ l + 1 z l z l > 0 z l < = 0 (4) (5) (6) (7)

$\begin{align} &\frac {\partial L} {\partial \alpha} = \frac {\partial L} {\partial z^{l+1}} \frac {\partial z^{l+1}} {\partial \alpha} \\ &=\delta^{l+1} \frac {\partial PReLU(z^l)} {\partial \alpha} \\ &=\delta^{l+1} \begin{cases} 0 & z^l >0 \\ z^l & z^l<=0 \end{cases} \\ &= \begin{cases} 0 & z^l >0 \\ \delta^{l+1}z^l & z^l<=0 \tag 7 \end{cases} \end{align}$