大模型面试准备(八):一文让你彻底搞懂 Transformer 工作原理

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学,针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何备战、面试常考点分享等热门话题进行了深入的讨论。


合集在这里:《大模型面试宝典》(2024版) 正式发布!


本文将从单头Attention工作原理、多头Attention工作原理、全连接网络工作原理三个方面,带您一文搞懂 Transformer 工作原理。

图片

Transformer工作原理

面试准备

一、单头Attention工作原理

单头Attention (Single-Head Attention):单头注意力是一种注意力机制,它只求一次注意力。在这个过程中,对同样的查询(Q)、键(K)和值(V)求一次注意力,得到一个输出。这种机制允许模型从不同的表示子空间在不同位置关注信息。

图片

Scaled Dot-Product(缩放点积运算)

  • Query、Key和Value矩阵:

    • Query矩阵(Q):表示当前的关注点或信息需求,用于与Key矩阵进行匹配。

    • Key矩阵(K):包含输入序列中各个位置的标识信息,用于被Query矩阵查询匹配。

    • Value矩阵(V):存储了与Key矩阵相对应的实际值或信息内容,当Query与某个Key匹配时,相应的Value将被用来计算输出。

  • 点积计算:

    • 通过计算Query矩阵和Key矩阵之间的点积(即对应元素相乘后求和),来衡量Query与每个Key之间的相似度或匹配程度。
  • 缩放因子:

    • 由于点积操作的结果可能非常大,尤其是在输入维度较高的情况下,这可能导致softmax函数在计算注意力权重时进入饱和区。为了避免这个问题,缩放点积注意力引入了一个缩放因子,通常是输入维度的平方根。点积结果除以这个缩放因子,可以使得softmax函数的输入保持在一个合理的范围内。
  • Softmax函数:

    • 将缩放后的点积结果输入到softmax函数中,计算每个Key相对于Query的注意力权重。Softmax函数将原始得分转换为概率分布,使得所有Key的注意力权重之和为1。

工作原理:单头Attention通过计算每个token的查询向量与所有token的键向量的点积,并经过softmax归一化得到注意力权重,再将这些权重应用于值向量进行加权求和,从而生成每个token的自注意力输出表示。

  • 每个token对应的Query向量与每个token对应的Key向量做点积

    对于输入序列中的每个token,我们都有一个对应的查询向量(Query Vector, Q)和键向量(Key Vector, K)。

    我们计算每个查询向量与所有键向量的点积。

    这个步骤是在所有token之间建立关系,表示每个token对其他token的“关注”程度。

图片

QK向量点积运算

  • 将上述点积取softmax(得到0~1之间的值,即为Attention权重)

    点积的结果需要经过一个softmax函数,确保所有token的注意力权重之和为1。

    softmax函数将点积结果转换为0到1之间的值,这些值表示了每个token相对于其他所有token的注意力权重。

图片

计算Attention权重

  • 计算每个token相对于所有其它token的Attention权重(最终构成一个Attention矩阵)

    经过softmax处理后的注意力权重构成了一个Attention矩阵。

    这个矩阵的每一行对应一个token,每一列也对应一个token,矩阵中的每个元素表示了对应行token对列token的注意力权重。

图片

构成Attention矩阵

  • 每个token对应的value向量乘以Attention权重,并相加,得到当前token的Self-Attention value向量

    使用这个Attention矩阵来加权输入序列中的值向量(Value Vector, V)。

    具体来说,对于每个token,我们将其对应的值向量与Attention矩阵中该token所在行的所有权重相乘,并将结果相加。

    这个加权求和的结果就是该token经过自注意力机制处理后的输出表示。

图片

加权求和Value向量

  • 将上述操作应用于每个token

    上述操作会应用于输入序列中的每个token,从而得到每个token经过自注意力机制处理后的输出表示。

    这些输出表示通常会被送入模型的下一个层进行进一步的处理。

图片

应用于每个token

二、多头Attention工作原理

多头Attention(Multi-Head Attention):头注意力机制通过并行运行多个Self-Attention层并综合其结果,能够同时捕捉输入序列在不同子空间中的信息,从而增强模型的表达能力。

  • Multi-Head Attention实际上是多个并行的Self-Attention层,每个“头”都独立地学习不同的注意力权重。

  • 这些“头”的输出随后被合并(通常是拼接后再通过一个线性层),以产生最终的输出表示。

  • 通过这种方式,Multi-Head Attention能够同时关注来自输入序列的不同子空间的信息。

图片
Multi-Head Attention

工作原理:多头Attention将每个头得到向量拼接在一起,最后乘一个线性矩阵,得到 Multi-Head Attention 的输出。

  • 输入线性变换:对于输入的Query(查询)、Key(键)和Value(值)向量,首先通过线性变换将它们映射到不同的子空间。这些线性变换的参数是模型需要学习的。

  • 分割多头:经过线性变换后,Query、Key和Value向量被分割成多个头。每个头都会独立地进行注意力计算。

  • 缩放点积注意力:在每个头内部,使用缩放点积注意力来计算Query和Key之间的注意力分数。这个分数决定了在生成输出时,模型应该关注Value向量的部分。

  • 注意力权重应用:将计算出的注意力权重应用于Value向量,得到加权的中间输出。这个过程可以理解为根据注意力权重对输入信息进行筛选和聚焦。

  • 拼接和线性变换:将所有头的加权输出拼接在一起,然后通过一个线性变换得到最终的Multi-Head Attention输出。

图片

拼接和线性变换

三、全连接网络工作原理

前馈网络(Feed-Forward Network):Transformer模型中,前馈网络用于将输入的词向量映射到输出的词向量,以提取更丰富的语义信息。前馈网络通常包括几个线性变换和非线性激活函数,以及一个残差连接和一个层归一化操作。

  • Encoder编码器:

    • Transformer中的编码器部分一共N个相同的编码器层组成。

      每个编码器层都有两个子层,即多头自注意力层(Multi-Head Attention)层和前馈神经网络(Feed-Forward Network)。

    • 在每个子层后面都有残差连接(图中的虚线)和层归一化(LayerNorm)操作,二者合起来称为Add&Norm操作。

图片

Encoder(编码器)架构

  • Decoder解码器:

    • Transformer中的解码器部分同样一共N个相同的解码器层组成。

      每个解码器层都有三个子层,掩蔽自注意力层(Masked Self-Attention)、Encoder-Decoder注意力层、前馈神经网络(Feed-Forward Network)

    • 同样,在每个子层后面都有残差连接(图中的虚线)和层归一化(LayerNorm)操作,二者合起来称为Add&Norm操作。

图片

Decoder(解码器)架构

工作原理:Multi-head Attention的输出,经过残差和norm之后进入一个两层全连接网络。

图片

  • 33
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Transformer模型是一种用于自然语言处理任务的深度学习模型,它在机器翻译任务中首次被提出并取得了巨大成功。Transformer模型工作原理如下: 1. 自注意力机制(Self-Attention):Transformer模型使用自注意力机制来捕捉输入序列中不同位置之间的依赖关系。自注意力机制通过计算每个位置与其他位置的相关性得分,然后将这些相关性得分作为权重对输入序列进行加权求和,从而得到每个位置的表示。 2. 编码器-解码器结构:Transformer模型由编码器和解码器两部分组成。编码器负责将输入序列转换为高维表示,解码器则根据编码器的输出生成目标序列。编码器和解码器都由多层堆叠的自注意力层和前馈神经网络层组成。 3. 位置编码:为了保留输入序列中的位置信息,Transformer模型引入了位置编码。位置编码是一种将位置信息嵌入到输入序列中的方法,它通过学习可让模型理解序列中不同位置的相对距离。 4. 多头注意力机制:为了增强模型对不同表示子空间的建模能力,Transformer模型使用了多头注意力机制。多头注意力机制将自注意力机制应用多次,每次使用不同的权重矩阵进行计算,从而得到多个不同的注意力表示。 5. 残差连接和层归一化:为了避免深层网络中的梯度消失问题,Transformer模型引入了残差连接和层归一化。残差连接将输入与输出相加,使得模型可以更好地传递梯度。层归一化则对每个子层的输出进行归一化,有助于加速训练过程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值