【学习笔记】Transformer

最新推荐文章于 2024-04-29 23:48:30 发布

张海木木

最新推荐文章于 2024-04-29 23:48:30 发布

阅读量621

点赞数 1

本文链接：https://blog.csdn.net/mumu_77zhl/article/details/109399394

版权

1.Transform简介
Transformer中抛弃了传统的CNN和RNN，整个网络结构完全是由Attention机制组成。更准确地讲，Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。
一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建，作者的实验是通过搭建编码器和解码器各6层，总共12层的Encoder-Decoder，并在机器翻译中取得了BLEU值得新高。

2.Transform结构
本质是Encoder-Decoder的结构：
在这里插入图片描述

整体结构 eg: 2个Encoder和2个Decoder的Transformer：
在这里插入图片描述

3.残差模块和Layer normalization
在transformer中，每一个子层（self-attetion，ffnn）之后都会接一个残差模块，并且有一个Layer normalization。
（1）残差引入目的
随着网络深度的增加，训练变得愈加困难，这主要是因为在基于随机梯度下降的网络训练过程中，误差信号的多层反向传播非常容易引发“梯度弥散”（梯度过小会使回传的训练误差信号极其微弱）或者“梯度爆炸”（梯度过大导致模型出现NaN）的现象。目前一些特殊的权重初始化策略和批规范化(BN)等方法使这个问题得到了极大改善——网络可以正常训练了！！但是实际情形不容乐观。当模型收敛时，另外的问题又来了：随着网络深度的增加，训练误差没有降低反而升高。这一现象与直觉极其不符，浅层网络可以被训练优化到一个很好的解，那么对应的更深层的网络至少也可以，而不是更差。这一现象在一段时间内困扰着更深层卷积神经网络的设计、训练和应用。

残差模块：y=F(x,w)+x
高速公路网络的“变换门”和“携带门”都为恒等映射时（即令 T=1，C=1T=1，C=1 ），就得到了残差网络

（2）Normalization引入目的
Normalization有很多种，但是它们都有一个共同的目的，那就是把输入转化成均值为0方差为1的数据。我们在把数据送入激活函数之前进行normalization（归一化），因为我们不希望输入数据落在激活函数的饱和区。 Batch Normalization。BN的主要思想就是：在每一层的每一批数据上进行归一化。我们可能会对输入数据进行归一化，但是经过该网络层的作用后，我们的数据已经不再是归一化的了。随着这种情况的发展，数据的偏差越来越大，我的反向传播需要考虑到这些大的偏差，这就迫使我们只能使用较小的学习率来防止梯度消失或者梯度爆炸。

4.输出层
Decoder的输出是浮点数的向量列表。把得到的向量映射为需要的词，需要线性层和softmax层获取预测为词的概率。

线性层是一个简单的全连接神经网络，它是由Decoder堆栈产生的向量投影到一个更大的向量中，称为对数向量

假设实验中我们的模型从训练数据集上总共学习到1万个英语单词（“Output Vocabulary”）。这对应的Logits矢量也有1万个长度-每一段表示了一个唯一单词的得分。在线性层之后是一个softmax层，softmax将这些分数转换为概率。选取概率最高的索引，然后通过这个索引找到对应的单词作为输出。

在这里插入图片描述

张海木木

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】Transformer

1.Transform简介Transformer中抛弃了传统的CNN和RNN，整个网络结构完全是由Attention机制组成。更准确地讲，Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建，作者的实验是通过搭建编码器和解码器各6层，总共12层的Encoder-Decoder，并在机器翻译中取得了BLEU值得新高。2.Transform结构
复制链接

扫一扫