基于Transformer架构训练LLM大语言模型：Transformer架构工作原理

最新推荐文章于 2025-02-25 18:41:24 发布

congzi1984

最新推荐文章于 2025-02-25 18:41:24 发布

阅读量1.4k

点赞数 27

文章标签： transformer 语言模型深度学习

本文链接：https://blog.csdn.net/congzi1984/article/details/141760447

版权

视频讲解：Transformer架构的工作原理讲解_哔哩哔哩_bilibili

总体架构说明：

词嵌入（Word Embeddings）: 输入文本中的每个词都被映射到一个高维空间中的向量，这些向量捕捉到了词义信息。
位置编码（Positional Encoding）: 为了使模型能够区分输入序列中词的位置信息，位置编码被加到词嵌入之上。位置编码确保模型知道每个词在其所在序列中的相对或绝对位置。

多头注意力（Multi-head Attention）: Transformer使用自注意力机制让每个位置的词与序列中的所有其他位置进行交互。多头注意力意味着将注意力机制分解成多个并行的注意力函数，每个函数有不同的参数，从而模型可以从不同的表示子空间中聚合信息。
前馈神经网络（Feed Forward Neural Networks）: 每个编码器层后面都有一个完全连接的前馈网络，用于对信息进行进一步处理。
残差连接与层归一化（Residual Connections and Layer Normalization）: 在每个多头注意力层和前馈网络层之后，都添加了残差连接，并跟随一个层归一化步骤，以帮助缓解梯度消失问题，并加速训练过程。

掩码多头自注意力（Masked Multi-head Self-Attention）: 在解码器中，除了多头注意力外，还会在序列生成过程中使用掩码技术来防止解码器访问未来的目标词。
编码器-解码器多头注意力（Encoder-Decoder Multi-head Attention）: 解码器层还包含一个额外的多头注意力层，它允许解码器中的位置直接关注编码器中的所有位置。

线性层与Softmax层: 解码器的最后一层通常是一个线性层，用于将每个位置的输出投影到目标词汇表大小的维度上。紧接着是一个Softmax层，将这些值转换为概率分布，用于生成下一个词的概率。

2.1 目的

输入英语你好：hao are you，输出德语你好：hao bist du

【步骤分解】

步骤说明：

输入：hao are you - 这个阶段将原始文本序列（如句子或单词）转换为向量表示。每个词被映射到一个固定长度的向量，这个过程通常通过词汇表和词嵌入层完成。
Positional Encoding - 在词嵌入之后，位置编码会被添加到这些向量中。位置编码是一种方法，它使模型能够理解输入序列中不同元素的位置关系，因为神经网络本身无法捕获顺序信息。
Multi-Head Attention - Transformer使用多头注意力机制来计算输入序列中各个位置之间的相关性。这包括自注意力(self-attention)和交叉注意力(cross-attention)，具体取决于是在编码器还是解码器中进行操作。
Add & Norm - 在注意力层之后，有一个残差连接(residual connection)和层归一化(layer normalization)，以帮助梯度流过深层网络并保持稳定训练。
Feed Forward Network (FFN) - 接下来是一个全连接的前馈神经网络，通常由两个线性层组成，中间夹着一个激活函数（例如ReLU）。FFN对来自上一层的输出进行非线性变换。
Output Probabilities - 最后，经过一系列编码器和解码器层后的输出会通过一个softmax层，生成一个概率分布，表示模型对于给定输入最可能的输出预测。