为什么大型语言模型都在使用 SwiGLU 作为激活函数?

449e9ecf05f0562f4951a23224b6270c.png

来源:DeepHub IMBA
本文约1100字,建议阅读5分钟本篇文章对SwiGLU进行详细的介绍。

如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数,它结合了SWISH和GLU两者的特点。

63d7e4fd0c74d380f32c11cf378aaf6b.png

我们一个一个来介绍:

Swish

Swish是一个非线性激活函数,定义如下:

Swish(x) = x*sigmoid(ßx)

20f4ed7557d3acf37cc21725bce159ef.jpeg

其中,ß 为可学习参数。Swish可以比ReLU激活函数更好,因为它在0附近提供了更平滑的转换,这可以带来更好的优化。

Gated Linear Unit

GLU(Gated Linear Unit)定义为两个线性变换的分量积,其中一个线性变换由sigmoid激活。

GLU(x) = sigmoid(W1x+b)⊗(Vx+c)

a05954e7edb08fdb938425148e80bd54.jpeg

GLU可以有效地捕获序列中的远程依赖关系,同时避免与lstm和gru等其他门控机制相关的一些梯度消失问题。

SwiGLU

上面我们已经说到SwiGLU是两者的结合。它是一个GLU,但不是将sigmoid作为激活函数,而是使用ß=1的swish,因此我们最终得到以下公式:

SwiGLU(x) = Swish(W1x+b)⊗(Vx+c)

我们用SwiGLU函数构造一个前馈网络

FFNSwiGLU(x) = (Swish1(xW)⊗xV)W2

Pytorch的简单实现

如果上面的数学原理看着比较麻烦枯燥难懂,我们下面直接使用代码解释。

class SwiGLU(nn.Module):


    def __init__(self, w1, w2, w3) -> None:
        super().__init__()
        self.w1 = w1
        self.w2 = w2
        self.w3 = w3


    def forward(self, x):
        x1 = F.linear(x, self.w1.weight)
        x2 = F.linear(x, self.w2.weight)
        hidden = F.silu(x1) * x2
        return F.linear(hidden, self.w3.weight)

我们代码使用的F.silu函数与ß=1时的swish相同的,所以就直接拿来使用了。

代码可以看到,我们的激活函数中也有3个权重是可以训练的,这就是来自于GLU公式里的参数。

SwiGLU的效果对比

SwiGLU与其他GLU变体进行比较,我们可以看到SwiGLU在两种预训练期间都表现得更好。

c741666dfaae0ba955a7ccc6c4a70e11.jpeg

下游任务

3b180afa2fb828bd6ecaaf4708b4601c.jpeg

效果表现得最好,所以现在的llm,如LLAMA, OLMO和PALM都在其实现中采用SwiGLU。但是为什么SwiGLU比其他的好呢?

论文中只给了测试结果而且并没有说明原因,而是说:

We offer no explanation as to why these architectures seem to work; we  attribute their success, as all else, to divine benevolence.

作者说炼丹成功了。

但是现在已经是2024年了我们可以强行的解释一波:

1、Swish对于负值的响应相对较小克服了 ReLU 某些神经元上输出始终为零的缺点

2、GLU 的门控特性,这意味着它可以根据输入的情况决定哪些信息应该通过、哪些信息应该被过滤。这种机制可以使网络更有效地学习到有用的表示,有助于提高模型的泛化能力。在大语言模型中,这对于处理长序列、长距离依赖的文本特别有用。

3、SwiGLU 中的参数 W1,W2,W3,b1,b2,b3W1,W2,W3,b1,b2,b3 可以通过训练学习,使得模型可以根据不同任务和数据集动态调整这些参数,增强了模型的灵活性和适应性。

4、计算效率相比某些较复杂的激活函数(如 GELU)更高,同时仍能保持较好的性能。这对于大规模语言模型的训练和推理是很重要的考量因素。

选择 SwiGLU  作为大语言模型的激活函数,主要是因为它综合了非线性能力、门控特性、梯度稳定性和可学习参数等方面的优势。在处理语言模型中复杂的语义关系、长依赖问题、以及保持训练稳定性和计算效率方面,SwiGLU 表现出色,因此被广泛采用。

论文地址:

https://arxiv.org/abs/2002.05202

作者:Aziz Belaweid

编辑:于腾凯

校对:林亦霖

6c8811995ac11eb1561ead4cd6dd0cf3.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Softmax 函数和分类交叉熵损失函数在分类任务中常被使用,原因如下: 1. Softmax 函数:Softmax 函数将输入转化为表示概率分布的输出。在分类任务中,我们希望模型的输出表示各个类别的概率,Softmax 函数可以将模型的输出转化为概率分布。Softmax 函数具有以下特点: - 将输入值映射到 (0, 1) 的区间,且所有输出值的和为 1,符合概率的定义。 - 可以放大较大的输入值并抑制较小的输入值,使得输出更加明确、鲁棒性更强。 - 具有可微性,可以方便地用于反向传播算法进行模型参数的更新。 2. 分类交叉熵损失函数:分类交叉熵损失函数用于衡量模型输出与真实标签之间的差异。在分类任务中,我们希望模型的输出概率分布与真实标签的概率分布尽可能接近。分类交叉熵损失函数具有以下特点: - 可以衡量模型输出概率分布与真实标签的差异性,越小表示模型预测越准确。 - 在训练过程中,通过最小化分类交叉熵损失函数可以使模型的输出概率分布逼近真实标签的概率分布。 - 具有可微性,可以方便地用于反向传播算法进行模型参数的更新。 综上所述,使用 Softmax 函数作为激活函数和分类交叉熵损失函数作为损失函数可以使模型在分类任务中输出概率分布,并通过最小化损失函数来优化模型参数,使得模型能够更准确地进行分类。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值