transformer

江_小_白

已于 2023-07-02 20:43:17 修改

阅读量882

点赞数

分类专栏：机器学习文章标签： transformer 深度学习人工智能

于 2023-07-02 17:29:08 首次发布

本文链接：https://blog.csdn.net/qq_45193988/article/details/131501714

版权

机器学习专栏收录该内容

18 篇文章

订阅专栏

Transformer模型通过完全依赖注意力机制替代了传统的循环神经网络，提高了序列建模如语言建模和机器翻译的并行性。其独特的多头注意力设计允许模型处理不同位置的全局依赖关系，同时，位置嵌入用于捕捉序列中的顺序信息。在训练效率和翻译质量上，Transformer展现出显著优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：Attention Is All You Need
链接：https://arxiv.org/pdf/1706.03762.pdf

1、Introduction

在序列建模（sequence modeling）和转换问题（transduction problems），例如例如语言建模和机器翻译，循环神经网络是效果最好的网络。但是循环神经网路并不具备并行的能力，尤其是在长序列上，模型的速度受到循环神经网络顺序执行的限制。因此，研究人员提出了 Transformer，这是一种避免重复的模型架构，而是完全依赖注意力机制来绘制输入和输出之间的全局依赖关系。Transformer 允许显着提高并行度，并且在 8 个 P100 GPU 上进行短短 12 小时的训练后，可以在翻译质量方面达到新的水平。

2、Background

在transformer，为了提高并行能力Extended Neural GPU , ByteNet和ConvS2S等基于卷积神经网络的模型被提出，在这些模型中，关联来自两个任意输入或输出位置的信号所需的操作数量随着位置之间的距离而增加，对于 ConvS2S 呈线性增长，对于 ByteNet 呈对数增长(本质上就是通过一层一层叠加卷积池化结构)。这使得学习遥远位置之间的依赖关系变得更加困难。而在 Transformer 中，这被减少到恒定数量的操作，尽管由于平均注意力加权位置而导致有效分辨率降低，我们用多头注意力来抵消这种影响。

3、Model Architecture

3.1 总体架构

在这里插入图片描述
模型的维度为512维，编码器，解码器分别为6层（N=6）。

在这里插入图片描述从上图可以看到，Encoders 的输出（最后一层的输出），会和每一层的 Decoder 进行结合（Encoder 向每层的 Decoder 输入 KV ，Decoder 产生的Q 从Encoder KV 里查询信息，在训练期间，Decoder最开始的输入，代表开始的标签，第二个输入是I，第三个输入是am,然后依次出入是a , student，即输入的是正确答案）

3.2 注意力层

3.2.1 单头注意力

在这里插入图片描述

注：

scal 这里指的是除以 $\sqrt{d_k}$ ,The input consists of queries and keys of dimension $d_k$ , and values of dimension $d_v$ ,

**加粗样式**
两种最常用的注意力功能是加法注意力和点积(乘法)注意力。两者在理论上的复杂性相似，但是点积注意力在实践中要快得多并且更节省空间，因为它可以使用高度优化的矩阵乘法代码来实现。对于较小的 $\sqrt{d_k}$ 值，这两种机制的表现相似，但对于较大的 $\sqrt{d_k}$ 值，加法注意优于点积注意。我们推测，对于较大的 $\sqrt{d_k}$ 值，点积的幅度会变大，从而将softmax函数推到梯度极小的区域。为了抵消这种影响，我们将点积缩放 $\frac{1}{\sqrt{d_k} }$ 。
在这里插入图片描述如果q,k都是均值为零，方差为一的向量，那么q·k结果为均值为0方差为 $d_k$ 。