【学习笔记】Transformer中的query、key与value

文章讲述了自注意力机制中查询、键和值的作用,以及权重矩阵的生成和更新过程。查询决定关注点,键评估相关性,值包含实际内容。权重矩阵作为模型参数,通过训练优化。多头注意力允许模型同时处理多个注意力方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如何得到?

在自注意力机制(self-attention)中,查询(query)、键(key)和值(value)是通过对输入特征进行线性变换得到的。对于输入特征序列(例如文本序列或图像特征图),每个位置都有一个对应的原始特征向量。然后,通过乘以权重矩阵来将原始特征向量映射到查询、键和值向量空间。

那么这个权重矩阵是怎么来的呢?

  • 权重矩阵是通过模型的学习过程中学习到的,它们是模型参数的一部分,通常在训练过程中通过反向传播算法来更新和优化。
  • 每个注意力头(attention head)都有自己的一组权重矩阵,用于将输入特征映射到查询、键和值空间。这些权重矩阵通常被称为查询矩阵(query matrix)、键矩阵(key matrix)和值矩阵(value matrix)。

对于每个位置的输入特征向量,通过与对应的查询矩阵、键矩阵和值矩阵进行矩阵乘法操作,从而分别得到查询向量、键向量和值向量。

查询、键和值是通过将输入特征映射到不同向量空间来得到的,而权重矩阵则是模型通过学习得到的一组参数,用于这一映射过程。每个权重矩阵对应一个注意力头,多头注意力机制使得模型可以并行地学习多个不同方面的注意力。

有何含义?

这三个向量分别代表什么含义呢?

在自注意力机制(self-attention)中,"query"是用于计算注意力权重的向量,它决定了模型在当前位置上应该关注输入序列中的哪些部分。在Transformer模型中,每个位置都有一个对应的query向量,它们会与其他位置的key向量进行点积,以计算注意力分数。

键向量(key)提供了输入序列中其他位置的信息,它用于评估当前位置与其他位置之间的相关性或相似性。在计算注意力分数时,查询向量与每个位置的键向量进行点积运算,得到一个标量分数,表示当前位置与该位置的相关性或者重要性。键向量(key)是用于提供参考信息的,它帮助模型在自注意力机制中理解输入序列中不同位置之间的关系,并为每个位置分配合适的注意力权重。

换句话说,查询向量告诉模型要关注的内容是什么,而键向量告诉模型如何根据其他位置的信息来计算这个内容的重要性。综合考虑查询向量和键向量,模型可以计算出每个位置在给定上下文中的重要程度,进而生成自注意力机制下的表示。

值向量包含了输入序列中每个位置的实际信息或内容,它们会根据注意力分数进行加权求和,从而得到最终的自注意力表示。在自注意力机制中,值向量通常用于计算注意力加权和的过程,以生成最终的注意力表示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值