Transformer的注意力机制白话解读

最新推荐文章于 2025-04-22 15:53:33 发布

LensonYuan

最新推荐文章于 2025-04-22 15:53:33 发布

阅读量1.4k

点赞数 1

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/A15216110998/article/details/132448418

版权

Transformer的注意力机制涉及多个元素，如查询（query）、键（key）和值（value）。这些元素通过一组线性变换来计算注意力权重，然后根据权重加权求和来生成输出。以下是Transformer注意力权重计算的基本公式：
$Softmax\left(\frac{QK^T}{\sqrt{\text{K的维度}}}\right) \cdot V$

假设我们有一个查询向量 Q，一组键向量 K，和一组值向量 V。注意力权重的计算步骤如下：

计算分数（Score）：
首先，通过将查询向量 Q 与每个键向量 K 进行点积运算，得到一组分数。点积运算可以衡量查询与键之间的相似性。
分数 = Q * K^T
缩放分数（Scaled Score）：
为了控制分数的范围，通常会将分数除以一个缩放因子（常数，通常是键向量的维度的平方根）。
缩放分数 = 分数 / sqrt(维度)
计算注意力权重（Attention Weights）：
将缩放后的分数经过 Softmax 函数，将其转化为注意力权重。Softmax 函数会使得注意力权重的总和为1，表示在计算加权和时的权重分配。
注意力权重 = Softmax(缩放分数)
计算加权和（Weighted Sum）：
最后，将注意力权重与对应的值向量 V 进行加权求和，得到最终的注意力输出。
注意力输出 = 注意力权重 * V

这些步骤可以通过矩阵运算进行高效的批量计算，使得Transformer能够处理大规模的序列数据。

总之，Transformer的注意力机制通过将查询与键之间的相似性转化为注意力权重，然后利用权重对值进行加权求和，从而实现了对输入序列的全局关注。这种机制允许模型在处理序列数据时捕捉不同位置之间的关系，并且在各种任务中取得了显著的性能提升。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

LensonYuan 蚊子腿也是肉！感谢！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。