HW5-Transformer

最新推荐文章于 2024-10-16 10:08:57 发布

八荒被注册了

最新推荐文章于 2024-10-16 10:08:57 发布

阅读量647

点赞数 12

分类专栏：李宏毅ML 2022 Spring 文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/qq_51968155/article/details/140342765

版权

李宏毅ML 2022 Spring 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

HW5-Transformer

Reference Code
Homework Link
这里贴一个可参考的blog

1.Video 1-Batch Normalization

在这里插入图片描述

当 $x_1$ 与 $x_2$ 范围相差很大时（如上图），会导致 $errors u r f a ce$ 在 $w_1$ 的斜率较小， $w_2$ 的斜率较大。即 $w_1$ 的变化对训练时的影响会较小。利用梯度下降更新时， $w_1$ 的更新速度会比较慢。

其中一种标准化为Feature normaliaztion：

在这里插入图片描述

上图有R个特征向量： $x^1,x^2,...,x^R$ ，其中 $x^1_{1}$ 表示特征1中维度为1的值。将维度为i的特征值标准化，将其变为正态分布： $\widetilde{x^{r}_{i}} = \frac{x^r_{i}-m_i}{\sigma_i}$ ，其中 $m_i$ 是均值， $\sigma_i$ 是标准差。

当训练的时候，GPU的memory并不能直接处理所有train data的Feature normalization，而是分批，处理每个batch的 Feature normalization。

2.Video 2 Transformer Encoder

Transformer是一个Seq2Seq的模型，Transformer的Encoder采用的即为Self-Attention的架构，而Encoder作用为将输入的语音等转换为相应的向量输出即输入一个Vector Seq输出一个Vector Seq。

在这里插入图片描述

上图中的Add & Norm就是Residual + Normalization。而Transformer中的Normaliaztion（如下图）与Video 1中的Batch Normalization并不相同。

在这里插入图片描述

上图是Transformer中的Normaliation，并不是一个batch中的同一个维度的不同Feature间做标准化，而是在一个特征向量中做标准化。

3.Video 3 Transformer Decoder-Autoregressive（AT）

在这里插入图片描述

Decoder开始会收到一个起始的One-hot向量BEGIN，预测出一个One-hot向量，其中“机”的概率最大，即输出为“机”；然后会将前一个预测出的”机“作为Decoder的输入继续预测。

但是当前一个预测出错，如将”机“预测为”气“，可能会导致后面“一步错步步错”的情况发生。输入序列长度与输出序列长度的关系是不确定的（eg.利用Seq2Seq进行文章摘要），所以在上面图片上Decoder输出完“习”之后并不会停下来，可能会继续输出（eg.“惯”）。

在这里插入图片描述

上图是Encoder（左）&Decoder（右）的内部结构。可以发现如果把Deconder中间部分的Add&Norm、Multi-Head Attention去掉，Decoder与Encoder的区别为：多头注意力是否有Masked。(多头注意力也即存在多个计算 $q^i \quad k^i \quad v^i$ 的矩阵)

如下面两张图片所示，Self-Attention产生的 $b^i$ 都是考虑了 $a^1\sim a^4$ 的信息得到的。Masked Self-Attention产生的 $b^i$ 则是只考虑前面的 $a^1\sim a^i$ 的信息得到的，也即只用 $q^2$ 与 $k^1 \quad k^2$ 来计算 $b^2$ 。