激活函数
一、gelu
论文:Gaussian Error Linear Units (GELUs)
公式:f(x) = xΦ(x)
其中Φ(x)表示高斯分布函数(是面积,不是概率密度),这样写是因为一般模型的参数是符合正太分布的,这样越小的参数越可能被dropout掉
实际使用时的近似公式(bert):
tf代码: 0.5x * (1.0 + tf.tanh((np.sqrt(2 / np.pi) * (x + 0.044715 * tf.pow(x, 3)))))
原理解释:
引入非线性,该激活函数是根据输入值
原创
2021-04-09 12:45:33 ·
147 阅读 ·
0 评论