大模型常用激活函数

nlp_xiaogui

已于 2024-07-19 15:25:49 修改

阅读量2.8k

点赞数 30

文章标签：人工智能自然语言处理神经网络语言模型

于 2024-06-14 13:40:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GuiBin1/article/details/139508042

版权

前言

在深度学习相关的算法当中如果没有激活函数，就算模型结构再复杂都无法对非线性的数据进行相应的处理。而激活函数的加入则可以非常有效的解决这个问题。如今随着大模型时代的到来，不同的模型当中也采用了不同的激活函数，本文将对常见开源大模型中经常使用的激活函数进行简单的总结。

ReLU

ReLU函数，全称为修正线性单元（Rectified Linear Unit），是深度学习中常用的激活函数之一。

公式

$f (x) = ma x (0, x)$
当输入的 $x$ 为正数时，输出就等于输入 $x$ 本身；当输入 $x$ 为负数时，输出为0。

图像

在这里插入图片描述

优缺点

由上图可以看到，ReLU函数当值小于0时将对应的数据映射为0，而大于0的时候保持不变，这种激活函数运算非常简单，而且不存在饱和问题可以有效缓解梯度消失的问题。但是由于小于0的值会置零，这样容易导致对应的权重无法进行更新，这种现象被称为“神经元死亡”。

GELU

GELU全称为高斯误差线性单元（Gaussian Error Linear Units）在论文《Gaussian Error Lineas Units》(GELUs)中提出，设计灵感来自于随机神经网络和高斯误差函数，通过模仿自然神经元的行为，即输入信号与噪声的交互。

公式

具体的公式可以表示为
$xP(X\le x) = x\Phi (x) = x·\frac{1}{2} [1+erf(\frac{x}{\sqrt{2} } )]$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

nlp_xiaogui 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。