Attention中的query,key和value

qq_43340256

已于 2023-07-21 14:41:27 修改

阅读量3.7k

点赞数 1

文章标签： python pytorch 机器学习人工智能

于 2023-07-21 14:36:15 首次发布

本文链接：https://blog.csdn.net/qq_43340256/article/details/131851567

版权

注意力机制是一种在序列数据中动态分配权重的技术，它通过查询、键和值向量来捕获依赖关系。在翻译任务中，查询对应目标语言，键和值源于源语言。向量嵌入用于表示单词的语义，经过softmax归一化得到注意力权重，加权求和形成输出向量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Attention是一种自注意力机制，它可以根据输入序列中的每个元素（如单词或字节）的相关性，动态地分配不同的权重，从而捕捉序列中的依赖关系和语义信息¹²。

Attention中的query, key和value是三种不同的向量，它们分别有以下作用¹²³：

Attention的计算过程如下¹²：

首先，将输入序列（如单词或字节）的嵌入向量（embeddings）分别映射为查询向量（query）、键向量（key）和值向量（value），这三种向量的维度相同，记为d_k。
然后，对每个位置i，计算查询向量i和所有键向量j的点积或其他相似度度量，得到一个注意力分数（attention score）s_ij，表示位置i对位置j的注意力权重。
接着，对每个位置i，对所有注意力分数s_ij进行归一化处理，如通过softmax函数得到一个注意力权重（attention weight）a_ij，表示位置i对位置j的注意力程度。
最后，对每个位置i，用所有注意力权重a_ij来加权求和对应的值向量j，得到一个输出向量o_i，表示位置i关注的信息。

注意，源语言的嵌入向量和源语言单词的区别是：