Scaled Dot-Product Attention

最新推荐文章于 2025-04-17 20:13:11 发布

YH美洲大蠊

最新推荐文章于 2025-04-17 20:13:11 发布

阅读量1.3k

点赞数 4

文章标签：机器学习

本文链接：https://blog.csdn.net/YHKKun/article/details/137125632

版权

本文详细阐述了ScaledDot-ProductAttention在Transformer模型中的作用，涉及点积计算、缩放处理和softmax归一化，强调了其在动态关注输入序列依赖关系中的核心功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Scaled Dot-Product Attention 是Transformer模型中核心的注意力机制之一，它的基本思想是通过计算query（查询）向量与一组key（键）向量之间的点积相似度，并通过softmax函数转换为概率分布，然后用这个概率分布加权value（值）向量，从而聚焦在最重要（相似度最高）的信息上。

Scaled Dot-Product Attention 最本质最重要的步骤包括三个核心计算部分：

点积计算（Dot Product）：首先，将查询（Query）矩阵 Q 和键（Key）矩阵 K 进行点积运算。这一步骤计算了查询向量和所有键向量之间的相似度得分，即衡量查询向量与每一个位置上的键向量有多匹配。
缩放（Scaling）：由于随着维度 d_k 的增加，点积的结果也会迅速增大，可能导致softmax函数梯度变得极小，影响训练效果。因此，对点积结果除以 √d_k 进行缩放，这样可以保持各个位置上的注意力得分在softmax之前具有相近的尺度，确保模型收敛性能更好。
Softmax归一化（Softmax Normalization）：对缩放后的点积结果应用

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

YH美洲大蠊

关注关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

从零构建大语言模型全栈开发指南：第二部分：模型架构设计与实现-2.1.1自注意力机制（Scaled Dot-Product Attention）的逐行代码实现

kngines

03-23

237

从零构建大语言模型全栈开发指南：第二部分：模型架构设计与实现-2.1.1自注意力机制（Scaled Dot-Product Attention）的逐行代码实现

【深度学习中的注意力机制1】11种主流注意力机制112个创新研究paper+代码——缩放点积注意力（Scaled Dot-Product Attention）

985小水博的摸鱼日常

10-20

853

【深度学习中的注意力机制1】11种主流注意力机制112个创新研究paper+代码——缩放点积注意力（Scaled Dot-Product Attention）

参与评论您还未登录，请先登录后发表或查看评论

Scaled Dot-Product Attention详解

发几十块的吧

08-13

3850

本文详细介绍了 Scaled Dot-Product Attention 的机制、计算步骤、以及一个详细的计算过程样例。

Scaled dot-product Attention、Self-Attention辨析

PuJiang-的博客

08-22

7617

一、Scaled dot-product Attention 有两个序列X、YX、YX、Y：序列XXX提供查询信息QQQ，序列YYY提供键、值信息K、VK、VK、V。Q∈Rx_len×in_dimQ\in R^{{x\_len}\times {in\_dim}}{}Q∈Rx_len×in_dimK∈Ry_len×in_dimK\in R^{{y\_len}\times {in\_dim}}{}K∈Ry_len×in_dimV∈Ry_len×out_dimV\in R^{{y\_len}\times {out

SDPA:Scaled Dot-Product Attention（缩放点积注意力）

最新发布

jerwey的博客

04-17

698

Scaled Dot-Product Attention（缩放点积注意力）是 Transformer 架构中的核心机制，由。它用于计算输入序列中不同位置之间的相关性，从而动态调整权重，使模型能够关注最重要的信息。如果你在实现 Transformer 或阅读相关论文时遇到它，现在应该能清晰理解它的原理了！

深度探索：机器学习中的缩放点积注意力（Scaled Dot-Product Attention）原理及应用

qq_51320133的博客

05-01

1万+

缩放点积注意力机制作为现代深度学习模型的核心组件，其简洁而强大的设计极大地推进了自然语言处理、计算机视觉乃至推荐系统等多个领域的进步。它通过直接、高效地捕获序列数据中的长距离依赖，克服了传统序列模型的局限性，促进了如Transformer这样的革命性模型的诞生。然而，尽管取得了显著成就，缩放点积注意力仍有优化空间。未来的研究方向可能包括：提高效率与降低资源消耗：探索更为高效的注意力计算方法，减少计算和内存需求，特别是在处理大规模数据集和超长序列时。增强位置信息编码：虽然已有工作通过相对位置编码等方

attention is all your need 之 scaled_dot_product_attention

qq_21157073的博客

08-09

7936

“scaled_dot_product_attention”是“multihead_attention”用来计算注意力的，原文中“multihead_attention”中将初始的Q，K，V，分为8个Q_，8个K_和8个V_来传入“scaled_dot_product_attention”中进行计算。在“scaled_dot_product_attention”主要就是进行attention的...

Scaled dot-prodect Attention的原理和实现（附源码）

专注AI领域

05-16

3403

如上图，由于一个hidden无法涵盖所有的Source句子信息，故将句子中每个字对应的hidden信息都输入到Attention中，再将Attention作为Decoder的输入，这样就可以防止Source句子信息的丢失。

Attention的汇总与辨析_Additive、Multiplication、Scaled dot-product、Self Attention、Multi-head Self-Attention

PuJiang-的博客

04-07

2625

一、Seq2Seq 1.1Seq2Seq(Encoder-Decoder)是什么简介：使用Encoder将input编码为一个固定长度的context向量，使用Decoder将context解码为output。input、output长度不一定相同。奠基论文：Sequence to Sequence Learning with Neural Networks ...

注意力机制：多头注意力（MultiHeadAttention+缩放点积注意力(scaled dot-product attention)代码详细实现+手动绘制的MultiHeadAttention网络

weixin_41686431的博客

03-19

2694

最终输出的形状:(batch_size*num_heads,查询或者“键－值”对的个数, num_hiddens/num_heads)# 输出X的形状:(batch_size，num_heads，查询或者“键－值”对的个数, num_hiddens/num_heads)# 输出X的形状:(batch_size，查询或者“键－值”对的个数，num_heads，num_hiddens/num_heads)# valid_lens的形状：（batch_size, ）或者（batch_size, 查询的个数）

一步一步理解大模型：缩放点积注意力机制

chattyfish的博客

04-19

7607

具体来说，Multi-Head Attention将输入矩阵分别进行多个头的线性变换，然后对每个头的变换结果分别计算Scaled Dot-Product Attention，最后将每个头的Attention结果拼接在一起并通过一个线性变换输出。通过这种方式，Scaled Dot-Product Attention可以计算出Query和Key之间的相似度，同时考虑了Value矩阵对最终结果的影响，进而实现了注意力机制的作用。将scores除以d_k的平方根（np.sqrt(d_k)），这就是所谓的缩放，

单头注意力机制（ScaledDotProductAttention） python实现

消极的人永远是对的，积极的人选择勇往直前

03-14

747

输入是query和 key-value，注意力机制首先计算query与每个key的关联性（compatibility），每个关联性作为每个value的权重（weight），各个权重与value的乘积相加得到输出。

keras 自定义层input_keras定义ScaledDotProductAttention层

weixin_39589557的博客

11-29

875

Transformer火到不行的今天，做nlp的应该没人不知道《Attention Is All You Need》这篇论文。文中提出了一种特殊的attention计算机制：scaled dot-product attention。今天借此来梳理如何用keras自定义这个layer。自定义层一定要重写的基本函数参考官方文档自定义层__init__: 初始化函数肯定是要有的，并且注意最后要调用父类的...

为什么 dot-product attention 需要被 scaled？

热门推荐

夏树让的博客

03-23

3万+

在 Attention Is All You Need 这篇经典论文中，有提到两种较为常见的注意力机制：additive attention 和 dot-product attention。并讨论到，当 $d_k$ 较大时，additive attention 要优于 dot-product attention，这其中的原因是什么？为什么采用 scaled dot-product attention?

LLM 优化技术(1)——Scaled-Dot-Product-Attention(SDPA)

哦豁灬

03-28

2302

在 Transformer 中抛弃了传统的 CNN 和 RNN，整个网络结构完全由和组成。一个基于 Transformer 的可训练的神经网络可以通过堆叠 Transformer 的形式进行搭建，论文中通过搭建编码器(encoder)和解码器(decoder)各 6 层，总共 12 层的，并在机器翻译中取得了 BLEU 值的新高。这里先之看这个接口。

缩放点积注意力（Scaled Dot-Product Attention）

彬彬侠的博客

02-10

2120

缩放点积注意力（Scaled Dot-Product Attention）是自注意力（Self-Attention）机制的一种变体，它被广泛应用于现代的神经网络架构中，尤其是在Transformer中。它的核心思想是利用输入序列中各个位置的查询（Query）、键（Key）和值（Value）来计算注意力权重，并通过加权求和的方式生成上下文向量。

scaled_dot_product_attention demo并且导出为onnx

极乐净土

01-29

1526

scaled_dot_product_attention

Scaled Dot-Product Attention方法

05-25

Scaled Dot-Product Attention是一种注意力机制，常用于自然语言处理和计算机视觉任务中，能够帮助模型学习到输入序列中最相关的信息。Scaled Dot-Product Attention的计算过程如下： 1. 输入一个查询向量Q，一个键向量K和一个值向量V。 2. 计算Q和K之间的点积，然后将结果除以根号下K的维度（也称为缩放因子）。 3. 将结果传入softmax函数，将它们转化为0到1之间的概率分布。 4. 将softmax函数的输出与值向量V进行加权求和，得到最终的输出。 Scaled Dot-Product Attention的优点是能够并行计算，因此在处理大规模数据时具有较高的效率。同时，由于使用了缩放因子，可以避免点积结果过大或过小导致的梯度消失或爆炸的问题。