MLP是多层感知机（Multi-Layer Perceptron）

最新推荐文章于 2024-07-23 11:56:45 发布

six.学长

最新推荐文章于 2024-07-23 11:56:45 发布

阅读量887

点赞数 17

分类专栏： Transformer 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51200050/article/details/140411784

版权

Transformer 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

MLP是多层感知机（Multi-Layer Perceptron）的缩写。多层感知机是神经网络的一种基本结构，由多个神经元层组成，包括一个输入层、一个或多个隐藏层和一个输出层。在Transformer模型中，MLP块是自注意力机制之后用于进一步处理信息的组件。

Transformer中的MLP块

在Transformer模型中，每个Transformer层由两个主要部分组成：

自注意力机制（Self-Attention Mechanism）
多层感知机（MLP）块

MLP块的结构

MLP块通常由以下几个部分组成：

线性变换（Linear Transformation）：
- 首先，输入向量经过一个线性变换，这通常是通过一个全连接层（也称为密集层）实现的。这个变换将输入向量投影到一个高维空间。

$y_1 = W_1 \cdot x + b_1$

其中， $W_1$ 是权重矩阵， $x$ 是输入向量， $b_1$ 是偏置项。

非线性激活函数（Non-linear Activation Function）：
- 线性变换的输出通常会通过一个非线性激活函数，例如ReLU（Rectified Linear Unit），引入非线性特性。

$y_2 = \text{ReLU}(y_1)$

第二个线性变换：
- 然后，经过激活函数的输出向量会经过另一个线性变换，将其投影回原始维度或期望的维度。

$y_3 = W_2 \cdot y_2 + b_2$

其中， $W_2$ 是第二个权重矩阵， $b_2$ 是第二个偏置项。

MLP块的作用

在Transformer模型中，MLP块用于进一步处理通过自注意力机制处理后的信息。自注意力机制捕捉输入序列中不同位置之间的依赖关系，而MLP块则对这些捕捉到的信息进行非线性变换和处理，以增强模型的表达能力。

具体示例

假设我们有一个Transformer层，其中输入向量是从自注意力机制输出的。以下是MLP块的具体处理步骤：

线性变换：
- 假设输入向量 $x$ 的维度为512，经过线性变换后被投影到一个更高的维度，例如2048。

$y_1 = W_1 \cdot x + b_1$

其中， $W_1$ 是一个大小为2048x512的矩阵。

非线性激活函数：
- 线性变换的结果 $y_1$ 通过ReLU激活函数，得到非线性变换后的向量 $y_2$ 。

$y_2 = \text{ReLU}(y_1)$

第二个线性变换：
- 经过ReLU激活后的向量 $y_2$ 通过第二个线性变换，将其投影回原始的512维度。

$y_3 = W_2 \cdot y_2 + b_2$

其中， $W_2$ 是一个大小为512x2048的矩阵。

总结

在Transformer模型中，MLP块用于在自注意力机制之后进一步处理信息。它通过两个线性变换和一个非线性激活函数实现对输入向量的非线性变换和处理，从而增强模型的表达能力。通过这种结构，Transformer能够在捕捉序列中不同位置之间的依赖关系的同时，有效处理和表示复杂的输入数据。

关注

17
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。