Relu比Sigmoid使用多的原因？？？（小白易懂）

最新推荐文章于 2024-10-01 18:31:48 发布

高大黑白涂鸦

最新推荐文章于 2024-10-01 18:31:48 发布

阅读量1.4k

点赞数 28

文章标签：机器学习深度学习人工智能面试图像处理计算机视觉

本文链接：https://blog.csdn.net/m0_56702615/article/details/141602881

版权

一.计算效率问题

计算复杂度：
- ReLU 函数（Rectified Linear Unit）的计算非常简单。对于任何输入值：
  - 如果输入值是正数，ReLU 直接返回这个正数。
  - 如果输入值是负数，ReLU 返回 0。
- 计算步骤：这个计算过程只需要一次简单的比较（判断输入值是否大于 0）和一次最大值操作，操作非常快速。
公式：

计算复杂度：O(1)（常数时间复杂度）
Sigmoid 函数的计算则稍复杂。Sigmoid 函数的公式是：
- 计算步骤：为了计算 Sigmoid 函数的值，首先需要计算指数函数 e−xe^{-x}e−x，然后进行加法和除法操作。
- 指数函数计算：计算 e−xe^{-x}e−x 是一个计算复杂度相对较高的操作，因为它涉及到指数运算，而指数运算通常需要较多的计算资源。
- 计算复杂度：计算 Sigmoid 函数的时间复杂度高于 ReLU，尤其是在处理大量数据时，指数运算的开销显著。

总结

ReLU 计算速度快：因为它只需进行一次简单的比较和最大值操作，计算复杂度较低（常数时间复杂度）。
Sigmoid 计算速度慢：因为它涉及指数运算和后续的加法、除法操作，这些计算步骤比 ReLU 要复杂得多，计算复杂度较高。

在神经网络中，尤其是在处理大规模数据时，ReLU 的这种计算效率优势会显著提升整体训练和推理速度。

二.梯度消失问题

当我们训练神经网络时，我们需要通过反向传播来调整网络的权重，使模型变得更准确。在这个过程中，网络的每一层都会计算一个梯度，这个梯度告诉我们应该如何调整权重。

Sigmoid 激活函数的问题

Sigmoid 函数的输出范围是从 0 到 1。当输入值非常大（很正）或非常小（很负）时，Sigmoid 函数的输出会非常接近 0 或 1。
这个函数的导数（也就是它的变化率）在这些极端值附近接近于 0。换句话说，当输入值非常大或非常小时，Sigmoid 函数的变化几乎停滞不前。

这就意味着：
- 梯度消失：在深层网络中，梯度通过多个 Sigmoid 层传递时，梯度会变得越来越小，因为每一层的导数都接近于 0。结果，更新权重时的变化非常小，网络学习变得非常缓慢，甚至可能停滞不前。

ReLU 激活函数的优势

ReLU 函数（Rectified Linear Unit）是另一种激活函数。它的计算非常简单：对于输入值为正的部分，它直接返回输入值；对于输入值为负的部分，它返回 0。
ReLU 函数的导数在正数部分是 1，这意味着梯度不会消失，至少在正数部分，网络可以持续学习。

这就意味着：
- 更好的梯度传递：因为 ReLU 函数的导数在正数区域始终是 1，所以梯度不会消失。即使在深层网络中，梯度也能更有效地传递，帮助网络更快地学习和收敛。

总结

Sigmoid 函数的主要问题是梯度消失，这使得深层网络的训练变得很慢。
ReLU 函数通过在正数部分保持稳定的导数，避免了梯度消失的问题，使得深层网络训练更高效。

三.稀疏激活性

当我们使用 ReLU 激活函数时，它的特性之一是稀疏激活性。这里的“稀疏”指的是在网络中，很多神经元的输出值会是 0。

ReLU 激活函数的特性

ReLU 函数将所有负数的输入截断为 0，所以只有正数部分会有实际的输出。
结果：对于每一个输入数据，许多神经元的输出会是 0（特别是输入数据中有负数时）。这意味着，实际参与计算的神经元只是网络中所有神经元的一个小部分。

为什么稀疏性有好处

减少过拟合：由于 ReLU 激活函数在很多神经元上输出 0，这使得网络中实际活跃的神经元较少。这样，网络每次只使用部分神经元来处理信息。这种特性减少了模型的复杂度，有助于降低过拟合的风险。
- 过拟合 是指模型在训练数据上表现很好，但在新数据上表现不好。稀疏激活性通过减少活跃神经元的数量，使得模型更简单，从而降低了过拟合的风险。

简单例子

想象你在做一个复杂的任务，比如分类图片。如果你的网络中的每个神经元都有可能被激活，那么它们可能都会参与到任务中，这样模型就变得很复杂，有可能会“记住”训练数据的细节而不是学习到真正有用的模式。但是，如果使用 ReLU 激活函数，很多神经元的输出是 0，实际上只有一部分神经元在处理每个图片。这使得模型变得更简单，更容易泛化到新的图片上。

总结

ReLU 函数的稀疏激活性意味着很多神经元的输出是 0，这样每次处理数据时只有部分神经元是活跃的。
好处：这种稀疏性使得模型变得更简单，降低了过拟合的风险，从而提高了模型在新数据上的表现能力。

四.非线性表达能力

ReLU 激活函数很简单，它的功能就是将负数变成 0，正数保持不变。这本身是一种比较简单的操作。
深度神经网络就是由很多层的神经元组成的，每一层都可以使用 ReLU 函数。尽管单个 ReLU 函数很简单，但通过组合多个 ReLU 层，网络可以实现非常复杂的计算。

为什么 ReLU 能创建复杂的模式

多个层的组合：网络中的每一层可以使用 ReLU 函数，这些层可以相互叠加。在每一层，ReLU 函数会对输入数据进行处理，并将处理结果传递到下一层。每一层都对数据进行变换，结果是多个层的 ReLU 函数可以一起处理和表达复杂的数据特征。
创建复杂的非线性映射：尽管每个 ReLU 函数都是线性的（要么是 0，要么是正数），但是通过多层的组合，这些简单的操作可以构建出非常复杂的函数。这就像用简单的积木搭建复杂的建筑一样，多个简单的 ReLU 层组合起来，可以处理和学习复杂的数据模式。