高斯误差线性单元(Gaussian Error Linear Unit,简称GELU)是一种激活函数,它结合了高斯分布的特性和线性部分。GELU的数学表达式为:
GELU(x)=x⋅Φ(x)
其中,Φ(x)是标准正态分布的累积分布函数(CDF),
特点:
- 非线性:GELU是非线性的,能够引入复杂的特征。
- 平滑性:与ReLU等函数相比,GELU在原点附近更为平滑,能够帮助缓解梯度消失问题。
- 保留小的负值:对于负输入,GELU并不会直接将其压制为零,而是会输出接近于零的负值,从而保留一些信息。
应用:
GELU在许多现代深度学习模型中被广泛使用,尤其是在自然语言处理和计算机视觉领域,因为它能够提升模型的收敛速度和性能。
06-10