【TheAnnotatedTransformer】(Mathematics)Embedding部分乘以根号d

本文链接：https://blog.csdn.net/caiziming_001/article/details/134825537

先看代码：

class Embeddings(nn.Module):
    def __init__(self, d_model, vocab):
        super(Embeddings, self).__init__()
        self.lut = nn.Embedding(vocab, d_model)
        self.d_model = d_model

    def forward(self, x):
        return self.lut(x) * math.sqrt(self.d_model)

在得到嵌入矩阵后，主动乘以了一个 $\sqrt {{d}_{model}}$ 这里 ${d}_{model}=512$ 那么这里为什么要乘以一个 $\sqrt {{d}_{model}}$ 呢？

首先我们对其效果做一个结论：这是由于后续要和positional encodeing部分的输出相加，所以一定要保持一个差不多的scale(来自李沐的答案)。

以此来防止梯度消失和梯度爆炸(每一层的输出的方差接近于其输入的方差，从而避免梯度消失或梯度爆炸的问题)，并且可以加快收敛速度(每一层输出的方差都接近输入的方差，使得每一层的梯度方差接近于1，这样每一层的参数更新幅度不会相差太大，从而加快收敛速度)

下面进行定性分析，为什么要乘以 $\sqrt{{d}_{model}}$ ？
首先经过初始化(Xavier初始化)的nn.Embedding.weight矩阵即 $W$ 参数矩阵满足如下分布：
$W\sim (0,\, \frac {1} {n})$
其中 $n$ 表示 ${d}_{model}$ 。具体理论可以参考:链接
其中我们拿到的Embedding矩阵
$E mb e dd in g = (O n e - Ho t) W$
其相当于是从W里抽出来的 $d_model$ 个样本。
那么Elements of Embedding就是正态总体Elements of W中的子样。
正态总体子样的均值 $\overline{X}=\sum ^{n}_{i=1} {{X}_{i}}$ 和方差满足：
$\overline{X}\sim N(\mu,{\sigma}^{2}/n)$
$\frac {(n-1){S}^{2}} {{\sigma }^{2}}\sim {\mathcal{X}}^{2}(n-1)$
推导过程
其中 $\mu=0, {\sigma}^{2}=\frac{1}{n}$ ,卡方分布 ${\mathcal{X}}^{2}(n-1)$ 的均值和方差分别是 $n - 1$ 和 $2 (n - 1)$ 所以有 $E(\overline{X})=0$ .
$E(\frac {(n-1){S}^{2}} {{\sigma }^{2}})=n-1$
可解得 $E({S}^{2})=\frac{1}{n}$
综上所述：
$Embedding\sim N(0, \frac{1}{{d}_{model}})$
所以我们需要乘以一个 $\sqrt{{d}_{model}}$ 把 $E mb d e d in g$ 调整到 $N (0, 1)$