大模型常用激活函数

前言

在深度学习相关的算法当中如果没有激活函数,就算模型结构再复杂都无法对非线性的数据进行相应的处理。而激活函数的加入则可以非常有效的解决这个问题。如今随着大模型时代的到来,不同的模型当中也采用了不同的激活函数,本文将对常见开源大模型中经常使用的激活函数进行简单的总结。

ReLU

ReLU函数,全称为修正线性单元(Rectified Linear Unit),是深度学习中常用的激活函数之一。

公式

f ( x ) = m a x ( 0 , x ) f(x) = max(0, x) f(x)=max(0,x)
当输入的 x x x为正数时,输出就等于输入 x x x本身;当输入 x x x为负数时,输出为0。

图像

在这里插入图片描述

优缺点

由上图可以看到,ReLU函数当值小于0时将对应的数据映射为0,而大于0的时候保持不变,这种激活函数运算非常简单,而且不存在饱和问题可以有效缓解梯度消失的问题。但是由于小于0的值会置零,这样容易导致对应的权重无法进行更新,这种现象被称为“神经元死亡”。

GELU

GELU全称为高斯误差线性单元(Gaussian Error Linear Units)在论文《Gaussian Error Lineas Units》(GELUs)中提出,设计灵感来自于随机神经网络和高斯误差函数,通过模仿自然神经元的行为,即输入信号与噪声的交互。

公式

具体的公式可以表示为
G E L U ( x ) = x P ( X ≤ x ) = x Φ ( x ) = x ⋅ 1 2 [ 1 + e r f ( x 2 ) ] GELU(x) = xP(X\le x) = x\Phi (x) = x·\frac{1}{2} [1+erf(\frac{x}{\sqrt{2} } )] GELU(x)=xP(Xx)=xΦ(x)=x21[1+

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

nlp_xiaogui

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值