22、注意力机制与Transformer模型详解

注意力机制与Transformer模型解析

u0v1w2x3

于 2025-08-28 16:31:15 发布

阅读量33

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习实战指南文章标签：注意力机制 Transformer模型多头注意力

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u0v1w2x3/article/details/151200675

深度学习实战指南专栏收录该内容

30 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

注意力机制与Transformer模型详解

1. 注意力机制优势概述

注意力机制在处理序列数据时展现出了显著优势，与传统的循环神经网络（RNN）相比，主要体现在以下两个方面：
|对比项|注意力机制|循环神经网络（RNN）|
| ---- | ---- | ---- |
|对序列元素的访问方式|直接访问所有输入序列元素，这虽然对最大序列长度有严格限制，但截至目前，基于Transformer的大语言模型（LLM）能够处理超过32,000个标记的序列。|将输入元素的信息编码在单个隐藏（思想向量）中，理论上它是所有序列元素的浓缩表示，但实际中表示能力有限，在新标记开始抹去旧标记信息之前，只能保留最大长度约为100个标记的有意义信息。|
|输入序列的处理方式|完全由矩阵乘法运算组成，这些运算具有高度的并行性，使得在大型训练数据集上训练具有数十亿可训练参数的LLM成为可能。|按元素到达的顺序逐个处理输入序列元素，因此无法进行并行化处理。|

不过，注意力机制也存在一个缺点，即它不像RNN那样能保留序列元素的顺序。但在Transformer编码器部分会介绍解决这一限制的方法。

2. 注意力机制的实现

2.1 缩放点积注意力的实现

缩放点积注意力实现了公式 $Attention(Q, K, V) = softmax(Q K^⊤ / \sqrt{d_k})V$，其中 $Q$ 为查询，$K$ 为键，$V$ 为值。以下是具体的Python代码实现：

import math

def attention(query, key, value

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。