[从0开始AIGC][Transformer相关]：Transformer中的激活函数：Relu、GELU、GLU、Swish

最新推荐文章于 2025-03-28 22:23:30 发布

Way_X

最新推荐文章于 2025-03-28 22:23:30 发布

阅读量4.7k

点赞数 26

分类专栏： AI算法工程师进阶之路文章标签： AIGC transformer 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41897558/article/details/137296850

版权

本文详细介绍了Transformer模型中FFN块中的几种常见激活函数，包括ReLU、GeLU、Swish以及使用这些激活函数的GLU块。这些非线性变换对模型性能至关重要，展示了每种函数的计算公式和特点，以及它们在深度学习中的适用场景和优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[从0开始AIGC][Transformer相关]：Transformer中的激活函数

文章目录

[从0开始AIGC][Transformer相关]：Transformer中的激活函数

1. FFN 块计算公式？

FFN（Feed-Forward Network）块是Transformer模型中的一个重要组成部分，接受自注意力子层的输出作为输入，并通过一个带有 Relu 激活函数的两层全连接网络对输入进行更加复杂的非线性变换。实验证明，这一非线性变换会对模型最终的性能产生十分重要的影响。

FFN由两个全连接层（即前馈神经网络）和一个激活函数组成。下面是FFN块的计算公式：

$\operatorname{FFN}(\boldsymbol{x})=\operatorname{Relu}\left(\boldsymbol{x} \boldsymbol{W}_{1}+\boldsymbol{b}_{1}\right) \boldsymbol{W}_{2}+\boldsymbol{b}_{2}$

假设输入是一个向量 $x$ ，FFN块的计算过程如下：

第一层全连接层（线性变换）： $z = x W 1 + b 1$ 其中，W1 是第一层全连接层的权重矩阵，b1 是偏置向量。
激活函数： $a = g (z)$ 其中，g() 是激活函数，常用的激活函数有ReLU（Rectified Linear Unit）等。
第二层全连接层（线性变换）： $y = aW 2 + b 2$ 其中，W2 是第二层全连接层的权重矩阵，b2 是偏置向量。

增大前馈子层隐状态的维度有利于提升最终翻译结果的质量，因此，前馈子层隐状态的维度一般比自注意力子层要大。

需要注意的是，上述公式中的 W1、b1、W2、b2 是FFN块的可学习参数，它们会通过训练过程进行学习和更新。

2. GeLU 计算公式？

GeLU（Gaussian Error Linear Unit）是一种激活函数，

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。