深度学习的激活函数（包含绘图代码）

最新推荐文章于 2022-12-16 20:43:29 发布

lzn1251

最新推荐文章于 2022-12-16 20:43:29 发布

阅读量888

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/lzn025/article/details/114628479

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.为什么使用激活函数？

提高神经网络的非线性表示能力。如果不使用非线性的激活函数，那么在神经网络中每一层的输出都是上一层输入的线性表示。那么即使不断增加网络的深度也还是线性映射，难以模拟实际模型的非线性情形。引入非线性的激活函数，使得神经网络可以逼近非线性模型。

2.常用激活函数

(1)sigmoid函数

表达式： $f(x)=sigmoid(x)=\frac{1}{1+e^{-x}}$

函数图像如下：
在这里插入图片描述

绘图代码如下：

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

x = np.arange(-10, 10, 0.01)
y = 1.0 / (1 + np.power(np.e, -x))
plt.grid(True, linestyle='-.')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.xlim((-10, 10))
plt.ylim((-0.1, 1.1))
plt.vlines(0, -0.1, 1.1, colors='r')
plt.hlines(0, -10, 10, colors='r')
plt.plot(x, y)
plt.savefig("sigmoid.jpg")
plt.show()

sigmoid的导函数为： $f^{'}(x)=\frac{e^{-x}}{(1+e^{-x})^2}=f(x)(1-f(x))$

其函数图像为：
在这里插入图片描述

x = np.arange(-10, 10, 0.01)
y = np.power(np.e, -x) / ((1 + np.power(np.e, -x)) ** 2)
plt.grid(True, linestyle='-.')
plt.xlabel('x')
plt.ylabel('f‘(x)')
plt.xlim((-10, 10))
plt.ylim((-0.1, 0.25))
plt.vlines(0, -0.1, 0.25, colors='r')
plt.hlines(0, -10, 10, colors='r')
plt.plot(x, y)
plt.savefig("sigmoid_derivative.jpg")
plt.show()

优点：
（1）函数的值域为[0, 1]，这使得它对每个神经元的输出进行了归一化。
（2）由于概率的取值范围为[0, 1]，sigmoid适合用于将预测概率作为输出的模型。
（3）梯度平滑，避免“跳跃”的输出值。
（4）函数是可微的，这意味着可以找到任意两个点的sigmoid曲线的斜率。
缺点：
（1）sigmoid含有幂运算和除法运算，计算量大。
（2）反向传播时，易出现梯度消失的情况。
（3）函数输出不是以0为中心的，这会降低权重更新的效率。

(2)tanh双曲正切函数

表达式： $f(x)=tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}=\frac{2}{1+e^{-2x}}-1$

函数图像如下：
在这里插入图片描述

x = np.arange(-10, 10, 0.01)
y = 2.0 / (1 + np.power(np.e, -2 * x)) - 1
plt.grid(True, linestyle='-.')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.xlim((-10, 10))
plt.ylim((-1.1, 1.1))
plt.vlines(0, -1.1, 1.1, colors='r')
plt.hlines(0, -10, 10, colors='r')
plt.plot(x, y)
plt.savefig("tangh.jpg")
plt.show()

tanh函数的导函数为：

$f^{'}(x)=1-tanh^{2}(x)$

其函数图像为：
在这里插入图片描述

x = np.arange(-10, 10, 0.01)
y = 2.0 / (1 + np.power(np.e, -2 * x)) - 1
y = 1 - y ** 2
plt.grid(True, linestyle='-.')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.xlim((-10, 10))
plt.ylim((-0.1, 1.1))
plt.vlines(0, -0.1, 1.1, colors='r')
plt.hlines(0, -10, 10, colors='r')
plt.plot(x, y)
plt.savefig("tangh_derivative.jpg")
plt.show()

与sigmoid函数相比：

（1）当输入较大或较小时，输出几乎是平滑的并且梯度较小，这不利于权重更新。tanh函数以0为中心，使其收敛速度比sigmoid快，减少迭代次数。
（2）负输入将强映射为负，零输入被映射为接近零。

注意：
（1）tanh函数也不能避免梯度消失问题。
（2）在一般的二分类问题中，tanh函数用于隐藏层，而sigmoid函数用于输出层。但这并不是固定的，需具体问题具体分析。

(3)ReLU函数

表达式： $f (x) = r e l u (x) = m a x (x, 0)$

函数图像如下：
在这里插入图片描述

x = np.arange(-10, 10, 0.01)
y = np.where(x < 0, 0, x)
plt.grid(True, linestyle='-.')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.xlim((-10, 10))
plt.ylim((-0.1, 10.1))
plt.vlines(0, -0.1, 10.1, colors='r')
plt.hlines(0, -10, 10, colors='r')
plt.plot(x, y)
plt.savefig("relu.jpg")
plt.show()

优点：
（1）计算量小，计算速度快。
（2）激活函数导数维持在1，可以有效缓解梯度消失和梯度爆炸等问题。
（3）使用Relu会使部分神经元为0，这样就造成了网络的稀疏性，并且减少了参数之间的相互依赖关系，缓解了过拟合问题的发生。

缺点：
（1）输入激活函数值为负数的时候，会使得输出为0，那么这个神经元在后面的训练迭代的梯度就永远是0了（由反向传播公式推导可得），参数w得不到更新，也就是这个神经元死掉了。这种情况在你将学习率设得较大时（网络训练刚开始时）很容易发生（波浪线一不小心就拐到负数区域了，然后就拐不回来了）。
（2）ReLU的输出为0或正数，这意味着ReLU函数不是以0为中心的函数。

(4)Leaky ReLU函数

表达式： $f(x)=leaky_relu(x)=max(\alpha x, x)$

函数图像如下：
在这里插入图片描述

x = np.arange(-10, 10, 0.01)
a = 0.01
y = np.where(x < 0, a * x, x)
plt.grid(True, linestyle='-.')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.xlim((-10, 10))
plt.ylim((-1.1, 10.1))
plt.vlines(0, -1.1, 10.1, colors='r')
plt.hlines(0, -10, 10, colors='r')
plt.plot(x, y)
plt.savefig("leaky_relu.jpg")
plt.show()

相比于ReLU函数：
1.Leaky ReLU通过把x的非常小的线性分量赋予负输入来避免梯度消失的问题。
2.Leaky 有利于扩大ReLU函数的范围，通常取 $\alpha=0.01$ 。

(5)ELU函数

表达式： $f(x)=elu(x,\alpha)=\begin{cases} \alpha (e^{x}-1) & x < 0 \\ x & x \geq 0 \end{cases}$

函数图像如下：
在这里插入图片描述

x = np.arange(-5, 5, 0.01)
a = 0.1
y = np.where(x < 0, a * (np.power(np.e, x) - 1), x)
plt.grid(True, linestyle='-.')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.xlim((-5, 5))
plt.ylim((-1.1, 5.1))
plt.vlines(0, -1.1, 5.1, colors='r')
plt.hlines(0, -5, 5, colors='r')
plt.plot(x, y)
plt.savefig("elu.jpg")
plt.show()