深度学习中的激活函数详细介绍以及优缺点分析

最新推荐文章于 2025-03-21 11:56:47 发布

Mr.Jk.Zhang

最新推荐文章于 2025-03-21 11:56:47 发布

阅读量2.7k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/mrjkzhangma/article/details/100124266

版权

本文详细介绍了深度学习中常用的非线性激活函数，如Sigmoid、Tanh、ReLU、Leaky ReLU、PReLU、Swish和SoftMax，分析了它们的优缺点。激活函数在神经网络中起到决定信号是否传递的关键作用，非线性激活函数能处理非线性可分数据，使得神经网络能逼近复杂函数。ReLU因其计算效率高和防止梯度消失而广泛使用，但存在死ReLU问题，Leaky ReLU和PReLU尝试解决此问题。Swish作为新提出的激活函数，表现优于ReLU。SoftMax则常用于多分类任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文首先介绍了什么是激活函数，然后重点讲解了在深度学习中所使用的几类非线性激活函数：Sigmoid、Tanh、ReLU、LReLU、PReLU、Swish、SoftMax，并详细介绍了这些函数的优缺点。

1. 激活函数

我们知道生物神经网络启发了人工神经网络的发展。但是，ANN 并非大脑运作的近似表示。所以在我们了解为什么在人工神经网络中使用激活函数之前，我们需要先了解一下生物神经网络与激活函数的相关性。

典型神经元的物理结构包括细胞体（cell body）、向其他神经元发送信号的轴突（axon）和接收其他神经元发送的信号或信息的树突（dendrites）。如下图所示:
在这里插入图片描述
上图中，红色圆圈代表两个神经元交流的区域。神经元通过树突接收来自其他神经元的信号。树突的权重叫作突触权值（synaptic weight），将和接收的信号相乘。来自树突的信号在细胞体内不断累积，如果信号强度超过特定阈值，则神经元向轴突传递信息。如未超过，则信号被该神经元「杀死」，无法进一步传播。

激活函数决定是否传递信号。在这种情况下，只需要带有一个参数（阈值）的简单阶梯函数。现在，当我们学习了一些新的东西（或未学习到什么）时，一些神经元的阈值和突触权值会发生改变。这使得神经元之间产生新的连接，大脑学会新的东西。

让我们再次理解这一概念，不过这次要使用人工神经元。
在这里插入图片描述

上图中（x_1, …, x_n）是信号向量，它和权重（w_1, …, w_n）相乘。然后再累加（即求和 + 偏置项 b）。最后，激活函数 f 应用于累加的总和。

注意： 权重（w_1, …, w_n）和偏置项 b 对输入信号进行线性变换。而激活函数对该信号进行非线性变换，这使得我们可以任意学习输入和输出之间的复杂变换。

过去已经出现了很多种函数，但是寻找使神经网络更好更快学习的激活函数仍然是活跃的研究方向。

2. 神经网络

我们有必要对神经网络如何学习有一个基本了解。假设网络的期望输出是 y（标注值），但网络实际输出的是 y’（预测值）。预测输出和期望输出之间的差距（y - y’）可以转化成一种度量，即损失函数（J）。神经网络犯大量错误时，损失很高；神经网络犯错较少时，损失较低。训练目标就是找到使训练集上的损失函数最小化的权重矩阵和偏置向量。

在下图中，损失函数的形状像一个碗。在训练过程的任一点上，损失函数关于梯度的偏导数是那个位置的梯度。沿偏导数预测的方向移动，就可以到达谷底，使损失函数最小化。使用函数的偏导数迭代地寻找局部极小值的方法叫作梯度下降。
在这里插入图片描述