Transformer小结

最新推荐文章于 2024-08-24 15:14:15 发布

Hangangang

最新推荐文章于 2024-08-24 15:14:15 发布

阅读量705

点赞数 21

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/m0_57254760/article/details/140893159

版权

框架图

框架图
网络对比

模型	优点	缺点
RNN	适合处理长序列数据	不能并行化
CNN	不同的输出通道	不擅长长序列

Transformer的期望：

能够处理长序列
支持并行操作
期望有不同的输出通道以获得更强的学习能力

编码器解码器架构

在这里插入图片描述
特点：
（a）先将长度可变的输入序列编码成为一个“状态”，然后对该状态进行解码，一个一个词元的生成翻译后的序列作为输出。
（b）Transformer中的编码器中的任何层都不会改变其输入的形状。
（c）编码器的输出作为解码器注意力机制中的K，V。

多头注意力

在这里插入图片描述
原由： 当给定相同的查询、键和值的集合时，希望模型可以基于相同的注意力机制学习到不同的行为，然后将不同的行为作为知识组合起来，捕获序列内各种范围的依赖关系。
特点：
（a）全连接层的引入相比较于只使用缩放点积注意力增加了可学习的参数。此外缩放点积注意力的另一个好处是Q和K大小相同便于计算。
在这里插入图片描述
（b）（Q，K，V）被复制h份分别输入到全连接层中来变换查询、键和值。然后，这h组变换后的查询、键和值将并行地送到注意力汇聚中。最后，将这个注意力汇聚的输出拼接在一起，并且通过另一个可以学习的线性投影进行变换，以产生最终输出。

自注意力和位置编码

特点：
（a）同一组词元同时充当查询，键和值。由于注意力机制并不体现位置关系，而序列信息又与位置信息紧密相连因此引入位置编码。
在这里插入图片描述
（b）词嵌入后和位置信息加和共同形成输入信息。为了保持范围一致词嵌入的值需要乘以以进行缩放。
位置编码： 假设输入表示包含一个序列中的n个词元的d维嵌入表示。位置编码使用形状相同的嵌入矩阵在这里插入图片描述输出矩阵第i行，第2j列和第2j+1列上的元素分别为：