机器学习-深度学习自学开始！！！-CSDN博客

本文链接：https://blog.csdn.net/trttdrrtrd/article/details/141128364

一故事的开始

考研复试前，通过B站唐宇迪的课程初步学习了Transformer相关知识,使我对人工智能产生了极大兴趣，了解了一些论文基于Transformer基本工作流程创新，这太神奇了！！！

二短期突击Transformer的一些拙见（记录短期成果）

1.概述

Transformer是一种基于自注意力机制的神经网络模型，用于处理序列数据，运用于NLP,CV等各个领域。它在处理长序列数据时表现出色，并且相比于传统的卷积神经网络（CNN）模型（堆叠多层，效率低），自注意力机制偏好全局信息，能够并行计算，从而提高了训练和推理的效率。

我总结的关键词：基于自注意力机制可并行效率高

附两张流程展示比较清楚的图：

2.主要原理

Transformer主要包括Encoder和Decoder两个模块，首先输入数据，经过Input Embedding后转换为数值向量，再通过Positional Encoding向数值向量中添加位置信息，通过相关论文了解到常用三角函数（隐含奇化和差公式）获得和其他位置相对位置信息和顺序的关系，接着进入由N个层组成的Encoder部分，然后通过多头注意力层（Multi-Head Attention），计算自注意力，接下来到Add&Norm层残差连接和归一化处理，然后送入前馈神经网络（Feed Forward）层中。

Decoder部分和Encoder部分子层结构基本一致，但有两处不同，一是多头注意力层增加了Mask（矩阵运算时乘一个上三角掩码矩阵），因为NLP中预测时只知道一句话中的部分字词，从而预测句子后续内容，Mask用于将不应该知道的部分句子屏蔽掉。另一处是，Decoder中先经过一个多头自注意力层和残差、归一化层后，增加了一个交叉注意力层，该层的q来自Decoder的Masker Multi-Head Attention，k和v来自Encoder的输出。

在经过Encoder和Decoder后，经过线性层进行映射，最后softmax输出预测结果。

3.关键名词理解

自注意力机制（Self-Attention）：

自注意力机制是Transformer的核心组成部分。它允许模型在处理序列中的每个元素时，能够对序列中的其他元素进行加权关注。在自注意力机制中，输入序列被分别映射为查询（Query）、键（Key）和值（Value）向量。 Q查K以提供给V中每个值和其他值之间加权求和的权重。（通过计算查询与键的相似度，得到每个查询与其他元素的注意力权重。最后，将注意力权重与对应的值向量相乘，并加权求和得到最终的输出。）

多头注意力机制（Multi-Head Attention）：

为了增强模型的表示能力，Transformer引入了多头注意力机制。多头注意力机制通过在不同的线性变换上并行地执行多个自注意力机制，从而获得多个不同的注意力表示。每个注意力头都具有不同的权重矩阵，通过学习可以捕捉不同的语义信息。