算法八股面试——Transformer

MY001128

已于 2024-09-18 09:24:17 修改

阅读量1k

点赞数 8

文章标签：算法 transformer 深度学习

于 2024-09-09 16:52:10 首次发布

本文链接：https://blog.csdn.net/MY001128/article/details/142055025

版权

1.Transformer为何使用多头注意力机制，不使用一个头？

多头可以使参数矩阵形成多个子空间，矩阵整体的size不变，只是改变了每个head对应的维度大小。这样做使矩阵对多方面信息进行学习，但计算量和使用单个head差不多。

2.Transformer为什么Q和K使用不同的权重矩阵生成，为何不能使用一个值进行自身的点乘？

Q和K初始为不同的权重是为了解决可能输入句与输出句长不一致的问题。并且如果Q，K的一致，不用Q而是直接拿K和K点乘的话，attention score矩阵是一个对称矩阵。因为是同一个矩阵都投影到同样的一个空间，所以会导致泛化能力会很差。

3.Transformer计算attention的时候为何选择点乘而不是加法？

K和Q点乘是为了得到一个attention score矩阵，用来对V进行提纯。K和Q使用了不同的 $W_K$ 和 $W_Q$ 来计算，可以理解为是在不同空间上的投影。

点乘操作可以利用高效的矩阵运算实现，尤其在现代GPU上是非常高效的，并且减少了复杂性。

加法注意力机制需要进行额外的前馈网络计算，复杂度较高。

4.为什么在进行softmax之前需要对attention进行scaled？

$attention \quad score=QK^T$

$attention \quad weights=softmax(QK^T)$

$softmax=\frac{e^{X_i}}{\sum _je^{X_j}}$

如果 $QK^T$ 较大，那么softmax的指数函数 $e^{X_i}$ 的值将会增长非常快，导致其中一个元素可能会占据绝大多数的权重，而其他元素贡献非常小。这种情况会让注意力机制不稳定，且容易出现梯度消失和梯度爆炸问题。

Q和K是独立的随机变量， $QK^T$ 就是随机变量的点积，对于均值为0，方差为1的独立随机变量来说，点积结果的方差与向量的维度 $d_k$ 成正比：

$Var(QK^T)=d_k$

当Q和K的维度 $d_k$ 变大，点积的方差也会增大，从而使 $QK^T$ 增大。因此，随着 $d_k$ 增大，softmax的输出会越来越倾向于赋予某些位置极高的权重，削弱其他位置的贡献，造成训练不稳定。为了防止这个问题，就要引入缩放项 $\frac{QK^T}{\sqrt{d_k}}$ 。

5.计算attention score时如何对padding做mask操作？

对需要mask的位置设置负无穷，在对attention score进行相加。

6.为什么在进行多头注意力的时候要对每个head进行降维？

将原有的高维空间转化为多个低维空间并在最后进行拼接，形成同样维度的输出，借此丰富特性信息，降低计算量。

7.Transformer的Encoder模块

输入嵌入（Input Embedding)+位置编码
多头自注意力机制
前馈神经网络
残差连接和层归一化
多层堆叠

输入嵌入（Inuput Embedding)+位置编码

输入序列中的每个词语通过embedding层映射为一个固定维度的向量表示。同时，为捕捉输入序列中词的位置信息，Transformer使用了位置编码，将位置信息与词embedding相加。（因为Transformer没有RNN那样的顺序信息机制，所以需要显示注入位置信息）

多头自注意力机制

自注意力：给定书UR向量序列，计算每个词和其他词之间的相似性，生成一个权重矩阵。然后用这个权重矩阵对序列进行加权求和，使得每个词的表示不仅包含自己的信息，还包含上下文中其他词的相关信息。

多头自注意力：不是单一的进行一次自注意力，而是将输入向量分为多个部分，分别计算不同的子空间上的注意力。这可以让模型从多个角度学习不同的特征，然后将这些head的输出拼接起来。

前馈神经网络（两个线性层+一个非线性激活层）

对注意力机制的输出进行进一步非线性变换，增加模型表达能力，能在局部区域上进行共复杂特征处理。

残差连接（Residual Connection）和层归一化（Layer Normalization）

每个子层（包括多头自注意力和FFN）都通过残差连接加上原始输入，然后在经过层归一化。残差连接的作用是防止深层网络中的梯度消失问题。层归一化则有助于加速训练并提高模型的稳定性。

残差连接：将子层的输入与子层的输出相加，确保梯度可以更好的反传。

层归一化：使模型训练更加平稳。

堆叠多个Encoder层

Transformer的Encoder模块由多个Enocoder层堆叠而成。

8.为何在获得输入词向量后需要对矩阵乘以embedding size的开方（ $\sqrt {d_{model}}$ )？

主要是为了数值平衡，保证：词embedding的值与自注意力机制中的点积操作结果保持适当的幅度；避免在softmax中梯度消失；保证词embedding和位置编码在数值上处于同一水平。

*位置编码的幅度通常是经过设计的，且不依赖于词语的特定语义。如果词嵌入的数值非常小，加上位置编码后，位置信息可能在数值上主导了词语的语义信息，乘以 $\sqrt {d_{model}}$ 可以放大词embedding的幅度，使他与位置编码的数值处于同一量级，从而保证位置编码不会压制embedding的语义信息。