激活函数

一、gelu

  • 论文:Gaussian Error Linear Units (GELUs)

  • 公式:f(x) = xΦ(x)
    其中Φ(x)表示高斯分布函数(是面积,不是概率密度),这样写是因为一般模型的参数是符合正太分布的,这样越小的参数越可能被dropout掉
    实际使用时的近似公式(bert):在这里插入图片描述
    tf代码: 0.5x * (1.0 + tf.tanh((np.sqrt(2 / np.pi) * (x + 0.044715 * tf.pow(x, 3)))))

  • 原理解释:

    • 引入非线性,该激活函数是根据输入值进行的非线性缩放,而不是类似于relu这种截断。(模型非线性可以更好的拟合数据,线性DNN的直接等价于单层MLP了)
    • 在x<<0的时候该神经元的输出也接近0,起到了dropout的效果。(随机正则)
    • 全部可导,对比relu更soft
    • 作者说这是集合了relu和dropout的特点,可以根据输入的值设置类似0/1的mask
  • 图示:
    在这里插入图片描述
    在这里插入图片描述

  • 导数图示:
    在这里插入图片描述

  • 其他
    和之前的swish激活函数差不多

参考

https://baijiahao.baidu.com/s?id=1653421414340022957&wfr=spider&for=pc

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值