机器学习：常用激活函数

最新推荐文章于 2024-01-17 15:38:08 发布

阿狸轰

最新推荐文章于 2024-01-17 15:38:08 发布

阅读量113

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/Alaskan_Husky/article/details/134514005

版权

机器学习专栏收录该内容

13 篇文章 2 订阅

订阅专栏

在机器学习中，一些激活函数更为常用，因其表现出色且易于训练。以下是一些最常用的激活函数：

ReLU函数（Rectified Linear Unit）：

ReLU（Rectified Linear Unit）是深度学习中最常用的激活函数之一。其定义如下：

ReLU(x)=max⁡(0,x)

简而言之，对于输入 x，如果 x 大于零，则输出为 x；否则，输出为零。这使得 ReLU 函数具有线性和非线性的特性，尤其在正数区域表现为线性。

特点和优势：

非线性： ReLU引入了非线性，这对于神经网络的表示能力非常重要。线性激活函数堆叠在一起仍然是线性的，而非线性激活函数允许网络学习更复杂的函数。
计算简单： ReLU的计算非常简单，只需比较输入是否大于零。这有助于提高训练和推理的效率。
稀疏激活性： ReLU的设计导致一些神经元在训练中可能会变得“死亡”，即永远不会被激活。这在某种程度上有助于稀疏性，使网络更加高效。
抑制梯度消失： 相比于一些传统的激活函数（如Sigmoid、Tanh），ReLU对于梯度的反向传播有助于缓解梯度消失问题，有利于深层网络的训练。

注意事项和问题：

死亡ReLU问题： 当输入为负数时，ReLU输出为零，导致相应神经元对于梯度的更新为零，从而无法继续学习。这可能导致一些神经元在训练过程中失去活性。
不适用于所有情况： 对于负数输入，ReLU输出为零，这可能不适用于所有类型的数据和任务。

为了解决死亡ReLU问题，一些改进的ReLU变种被提出，如Leaky ReLU、Parametric ReLU（PReLU）等，它们在负数部分引入小的负斜率，以避免神经元完全失活。

Sigmoid函数：

Sigmoid函数是一种常用的激活函数，其定义如下：

$\sigma(x) =\frac{1}{1+e^{-x}}$

其中，e 是自然对数的底。Sigmoid函数将任意实数映射到一个范围在 (0, 1) 之间的值。这使得它在二分类问题中常被用作输出层的激活函数，将网络的输出转换为概率值。

特点和优势：

输出范围： Sigmoid函数的输出在 (0, 1) 范围内，可以被解释为概率值，适用于二分类问题。
平滑性： Sigmoid函数是平滑且可导的，这有助于使用梯度下降等优化算法进行训练。
用于隐层： 在一些早期的神经网络中，Sigmoid函数被用作隐层的激活函数，但在深度网络中，由于梯度消失问题，ReLU等激活函数更为常见。

注意事项和问题：

梯度消失问题： 在深度网络中，Sigmoid函数容易导致梯度消失问题，即在反向传播过程中，梯度逐渐减小，使得网络参数无法得到有效更新。
输出偏离中心： Sigmoid函数的输出在接近 0 或 1 时梯度变得非常小，导致权重更新缓慢。这使得网络训练相对较慢。
不以零为中心： Sigmoid函数的输出总是正数，不以零为中心，这可能导致某些神经元始终保持负值，使它们对梯度的更新非常小。

由于上述问题，Sigmoid函数在深度学习中的隐层中逐渐被其他激活函数（如ReLU、Leaky ReLU等）所取代。然而，在输出层用于二分类问题时，Sigmoid函数仍然是一个常见的选择。

Softmax函数：

Softmax函数是一种常用的激活函数，通常用于多类别分类问题的输出层。它将网络的原始输出转换为表示各类别概率分布的向量。Softmax函数的定义如下：

$Softmax(x)_{i}=\frac{e^{x_{i}}}{\sum_{j=1}^{n}e^{^{x_{j}}}}$

其中 $x_{i}$ 是原始输出的第 i 个元素， n是类别的总数。

Softmax函数的特点和作用：

概率分布： Softmax将网络的输出转换为一个概率分布，确保所有类别的概率之和为1。每个类别的概率代表该类别的相对置信度。
多类别分类： Softmax广泛应用于多类别分类问题，例如图像分类，自然语言处理中的词性标注等。
对数似然损失： 在训练过程中，Softmax通常与对数似然损失（cross-entropy loss）一起使用，帮助最小化模型输出与真实标签之间的差距。

Softmax函数的计算过程：

计算每个类别的原始输出 $x_{i}$ 。
对所有原始输出进行指数运算，得到 $e^{x_{i}}$ 。
计算所有指数项的和： $\sum_{j=1}^{n}e^{x_{j}}$ 。
将每个 exiexi 除以总和，得到每个类别的概率： $\frac{e^{x_{i}}}{\sum_{j=1}^{n}e^{x_{j}}}$ 。

注意事项和问题：

数值稳定性： 在实际计算中，可能遇到指数运算导致数值过大溢出的问题。为了提高数值稳定性，可以对每个 $x_{i}$ 减去输出中的最大值。
类别不平衡： 如果某些类别的原始输出较大，Softmax可能导致模型对这些类别过于自信。在处理类别不平衡问题时，可能需要额外的措施。

这三种激活函数在各种任务中经常使用。ReLU广泛应用于隐藏层，Sigmoid和Softmax常用于输出层，适用于分类问题。另外，Leaky ReLU、PReLU、ELU等变种也在不同场景中得到应用，具体的选择取决于实际问题的性质和网络结构。在实践中，通常通过实验和交叉验证来确定最适合特定问题的激活函数。

阿狸轰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习：常用激活函数

在机器学习中，一些激活函数更为常用，因其表现出色且易于训练。ReLU（Rectified Linear Unit）是深度学习中最常用的激活函数之一。其定义如下：简而言之，对于输入 x，如果 x 大于零，则输出为 x；否则，输出为零。这使得 ReLU 函数具有线性和非线性的特性，尤其在正数区域表现为线性。
复制链接

扫一扫

专栏目录