Bert使用的激活函数:gelu---高斯误差线性单元

本文深入探讨了BERTTransformer结构中使用的GELU激活函数,解释了其如何通过非线性变换提供更好的随机正则化效果,以及相较于ReLU的优势,尤其是在深度学习任务中的表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        Bert Transfromer结构中使用了这个激活函数---gelu(Gaussian error linear units,高斯误差线性单元),Gelu在论文中已经被验证,是一种高性能的神经网络激活函数,因为GELU的非线性变化是一种符合预期的随机正则变换方式(这句话,说实话,我翻译自原论文,具体怎么理解呢?我自己是如下理解的)。

  • 激活函数的作用:给网络模型加入非线性因子,这个非线性因子的实际操作就是在wx+b这样的线下变化后面加入一个非线性变化的函数fun。
  • Gelu的操作方式:Gelu怎么完成非线性变换的呢?引入这样的变化函数:  

        公式中x是自己,P(X<=x)决定x中有多少信息保留 ,并且由于P是服从高斯分布的,也就满足了非线性的特征,并且更加符合数据的分布预期。

  • 相比Relu:Relu将小于0的数据映射到0,将大于0的给与  等于 映射操作,虽然性能比sigmoid好,但是缺乏数据的统计特性,而Gelu则在relu的基础上加入了统计的特性。论文中提到在好几个深度学习任务中都优于Relu的效果。  

 

 

Reference:

[1] Gaussian Error Linear Units (GELUs), Dan HendrycksKevin Gimpel

(Submitted on 27 Jun 2016 (v1), last revised 11 Nov 2018 (this version, v3))

https://arxiv.org/abs/1606.08415

 

### GELU激活函数概述 GELU(Gaussian Error Linear Units)是一种基于高斯分布的非线性激活函数,由Dan Hendrycks和Kevin Gimpel在2016年首次提出[^1]。该函数旨在结合ReLU的非饱和特性和Sigmoid/Tanh的平滑特性,在深度学习模型中表现出良好的性能。 --- ### 数学定义与公式 GELU的数学定义如下: 对于输入 \( x \),GELU 的计算方式可以通过两种形式表示: #### 形式一:精确形式 \[ \text{GELU}(x) = x \cdot P(X \leq x) = x \cdot \Phi(x) \] 其中,\( P(X \leq x) \) 是标准正态分布累积分布函数 (CDF),记作 \( \Phi(x) \)。 #### 形式二:近似形式 为了提高计算效率,通常采用以下近似公式: \[ \text{GELU}(x) \approx 0.5x(1 + \tanh[\sqrt{\frac{2}{\pi}}(x + 0.044715x^3)]) \][^2] 这种近似形式通过引入双曲正切函数来简化计算过程,同时保持较高的精度。 以下是实现上述公式的 Python 代码示例: ```python import numpy as np def gelu_exact(x): """ 使用 CDF 计算 GELU """ return x * 0.5 * (1.0 + np.erf(x / np.sqrt(2.0))) def gelu_approximate(x): """ 近似版本的 GELU 实现 """ c = np.sqrt(2 / np.pi) return 0.5 * x * (1 + np.tanh(c * (x + 0.044715 * x ** 3))) ``` --- ### 应用场景 GELU 激活函数广泛应用于各种深度学习任务中,尤其是在自然语言处理(NLP)领域表现突出。例如,在BERT等预训练语言模型中,GELU被选为主流激活函数之一。除此之外,它的适用范围还包括但不限于以下几个方面: 1. **计算机视觉** 在卷积神经网络(CNNs)和其他图像分类、目标检测任务中,GELU能够有效提升模型收敛速度并改善泛化能力。 2. **语音识别** 对于序列建模问题,如自动语音识别(ASR),GELU有助于缓解梯度消失现象,增强深层结构的学习效果[^3]。 3. **推荐系统** 基于深度学习的个性化推荐算法也常利用GELU作为隐藏层中的激活单元,从而捕捉复杂的特征交互关系。 需要注意的是,实际应用时应综合考虑模型架构特点以及硬件资源限制等因素选择合适的激活函数[^2]。 --- ### 总结 综上所述,GELU作为一种新兴的激活函数,凭借其独特的性质——既保留了ReLU的优点又具备一定的平滑过渡能力,在多个领域取得了显著成效。然而,针对特定任务的最佳实践仍需进一步探索验证。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值