【AI知识点】激活函数(Activation Function)

激活函数(Activation Function) 是神经网络中的一个关键组件,负责将输入的线性组合转化为非线性输出。它赋予神经网络模型以复杂的表达能力,使其能够处理非线性问题,比如分类、图像识别和自然语言处理等任务。


1. 激活函数的作用

激活函数的主要作用是引入非线性,让神经网络能够学习复杂的模式。如果没有激活函数,神经网络中的每一层都只做线性变换,最终网络只会是多个线性变换的组合,相当于一个单一的线性模型,无法解决复杂的非线性问题。

  • 非线性:激活函数将线性输出(加权和加偏置的输出)转化为非线性输出,使得神经网络可以拟合任意复杂的函数。
  • 归一化:有些激活函数还具有将输出值限制在某个固定区间的效果(如 Sigmoid,将输出限制在 ( 0 , 1 ) (0, 1) (0,1) 区间),这可以帮助模型稳定训练。

2. 常见的激活函数

a. Sigmoid 函数

Sigmoid 函数是深度学习中最早广泛使用的激活函数之一,它将输入值映射到 ( 0 , 1 ) (0, 1) (0,1) 的区间,输出为一个概率值。其公式为:
σ ( x ) = 1 1 + e − x \sigma(x) = \frac{1}{1 + e^{-x}} σ(x)=1+ex1

  • 特点:输出值在 0 0 0 1 1 1 之间,因此常用于二分类问题。

  • 缺点梯度消失问题,在输入值较大或较小时,Sigmoid 函数的梯度(导数)接近零,这会导致反向传播过程中梯度逐渐减小(消失),影响权重的更新,特别是在深层网络中。

  • 图示


b. Tanh 函数

Tanh(双曲正切函数)是 Sigmoid 的扩展版本,输出范围为 ( − 1 , 1 ) (-1, 1) (1,1),可以解决 Sigmoid 在输出上的偏移问题。其公式为:
tanh ( x ) = e x − e − x e x + e − x \text{tanh}(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} tanh(x)=ex+exexex

  • 特点:输出范围为 ( − 1 , 1 ) (-1, 1) (1,1),相比 Sigmoid 更加居中,能够减少偏移(mean shift)问题。

  • 缺点:同样存在梯度消失问题,在输入值非常大或非常小时,Tanh 的梯度依然会变得很小。

  • 图示


c. ReLU(Rectified Linear Unit)函数

ReLU 是目前使用最为广泛的激活函数之一。ReLU 函数的输出在正数区域保持线性,在负数区域则为 0。其公式为:
ReLU ( x ) = max ⁡ ( 0 , x ) \text{ReLU}(x) = \max(0, x) ReLU(x)=max(0,x)

  • 特点:当输入大于 0 时,ReLU 直接输出输入值;当输入小于 0 时,输出为 0。

  • 优点

    • 解决梯度消失问题:ReLU 的梯度为 1(当 x > 0 x > 0 x>0 时),不会像 Sigmoid 和 Tanh 那样使梯度变小,从而有效缓解梯度消失问题。
    • 计算效率高:ReLU 计算非常简单,只需要一个最大值操作,非常适合在深层网络中使用。
  • 缺点死亡 ReLU 问题,当输入的值小于 0 时,ReLU 的输出一直为 0,这意味着神经元可能会永远不再激活,这在某些情况下会导致网络性能下降。

  • 图示


d. Leaky ReLU

Leaky ReLU 是对 ReLU 的一种改进,解决了 ReLU 在负数区域输出为 0 时神经元“死亡”的问题。Leaky ReLU 在负数区域给予一个很小的正数斜率 α \alpha α(通常为 0.01)而不是完全为 0,其公式为:
Leaky ReLU ( x ) = { x if  x > 0 α x if  x ≤ 0 \text{Leaky ReLU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{if } x \leq 0 \end{cases} Leaky ReLU(x)={xαxif x>0if x0

  • 优点:在负数区域仍然保持一个小的斜率,使得神经元不完全失活。减少了 ReLU 函数中的死亡 ReLU 问题,确保神经元即使在负值输入时也能有一定的梯度更新。

  • 图示


e. ELU(Exponential Linear Unit)

ELU 是另一种改进的 ReLU 激活函数,在负数区域使用指数函数进行平滑。其公式为:
ELU ( x ) = { x if  x > 0 α ( e x − 1 ) if  x ≤ 0 \text{ELU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha(e^x - 1) & \text{if } x \leq 0 \end{cases} ELU(x)={xα(ex1)if x>0if x0
其中 α \alpha α 是一个超参数,通常取值为 1。

  • 特点:在正数区域与 ReLU 类似,但在负数区域使用指数函数进行平滑,避免了死亡 ReLU 问题。

  • 优点:与 Leaky ReLU 相比,ELU 在负数区域提供的平滑曲线可以在一定程度上减少偏差。

  • 缺点:计算量比 ReLU 稍大,因为负数区域的计算涉及指数运算。

  • 图示


f. Swish

Swish 是一种新的激活函数,由 Google 提出,它结合了 ReLU 和 Sigmoid 的优势。其公式为:
Swish ( x ) = x ⋅ σ ( x ) = x ⋅ 1 1 + e − x \text{Swish}(x) = x \cdot \sigma(x) = x \cdot \frac{1}{1 + e^{-x}} Swish(x)=xσ(x)=x1+ex1

  • 特点:Swish 在小于 0 的输入值时逐渐趋近于 0,而在大于 0 时逐渐增大,因此它在负值区域不会像 ReLU 那样硬性截断。

  • 优点:Swish 的非线性变化更加平滑,能够捕获更多的复杂模式,特别适合用于深度神经网络中。

  • 缺点:计算量比 ReLU 更大,因为它涉及 Sigmoid 的计算。

  • 图示


3. 激活函数的选择

神经网络中的激活函数选择取决于具体任务和网络结构。以下是一些常见的经验法则:

  • ReLU 是目前最常用的激活函数,特别是在卷积神经网络(CNN)和全连接网络(FCN)中表现优异。对于大多数深度网络,ReLU 是一个很好的起点,因为它能有效避免梯度消失问题。

  • Leaky ReLUELU 是 ReLU 的改进版本,适合于有负输入的场景或避免神经元失活的场景。

  • SigmoidTanh 适用于一些特殊情况,特别是在需要输出概率或对称输出的情况下(例如,输出为 [ − 1 , 1 ] [-1, 1] [1,1])。不过它们通常会导致梯度消失,因此不推荐用于深层网络。

  • Swish 是一种更平滑的激活函数,在某些复杂任务(如超深网络)上可能表现优异。


4. 激活函数的数学属性

激活函数的选择不仅仅与模型的表现有关,还涉及其数学属性,如:

  • 可微性:大多数常见的激活函数(如 Sigmoid、Tanh、ReLU 等)都是可微的,尽管 ReLU 在 x = 0 x=0 x=0 处不可微,但通常在实际应用中表现良好。

  • 导数值的大小:激活函数的导数决定了梯度传播时的效率。像 ReLU 这样导数为常数的函数不会引发梯度消失,而 Sigmoid 和 Tanh 由于导数较小,容易引发梯度消失问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值