论文:gaussian error linear units
(一)、什么是激活函数?
激活函数的本质就是给网络模型增加非线性,也就是在 w T x + b w^Tx+b wTx+b等线性变换后面加一个非线性变换,这个非线性变换就称为激活函数。
(二)、什么是gelu激活函数?
gelu(gaussian error linear units)就是我们常说的高斯误差线性单元,它是一种高性能的神经网络激活函数,因为gelu的非线性变化是一种符合预期的随机正则变换方式,公式如下: x P ( X ≤ x ) = x Φ ( x ) (2.1) {xP(X \le x)=x\Phi(x)}\tag{2.1} xP(X≤x)=xΦ(x)(2.1)其中 Φ ( x ) \Phi(x) Φ(x)指的是 x x x的高斯正态分布的累积分布,完整形式如下: x P ( X ≤ x ) = x ∫ − ∞ x e − ( X − μ ) 2 2 σ 2 2 π σ d X (2.2) {xP(X \le x)=x\int_{-\infty}^{x}\frac{e^{-\frac{(X-\mu)^2}{2\sigma^2}}}{\sqrt{2\pi}\sigma} \, \mathrm{d}X}\tag{2.2} xP(X≤x)=x∫−∞x2π