深入解析自注意力机制（Self-Attention）：深度学习中的关键创新

最新推荐文章于 2025-03-24 20:46:31 发布

小桥流水---人工智能

最新推荐文章于 2025-03-24 20:46:31 发布

阅读量5.4k

点赞数 31

分类专栏：机器学习分类算法人工智能机器学习算法文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qlkaicx/article/details/138998257

版权

机器学习算法同时被 3 个专栏收录

308 篇文章

订阅专栏

人工智能

296 篇文章

订阅专栏

机器学习分类算法

82 篇文章

订阅专栏

在这里插入图片描述

Self-Attention

深入解析自注意力机制（Self-Attention）：深度学习中的关键创新

深入解析自注意力机制（Self-Attention）：深度学习中的关键创新

自注意力机制（Self-Attention），也称为内部注意力，是一种允许模型在序列内部的不同位置间直接建立关系的机制。这一技术已经彻底改变了自然语言处理（NLP）等领域的模型架构，特别是在Transformer模型的推动下，自注意力机制成为了近年来深度学习研究的热点之一。本篇博客将详细介绍自注意力机制的起源、工作原理、数学表达和在现代深度学习中的应用。

自注意力机制的起源

自注意力机制首次获得广泛关注是在2017年，由Google的研究团队在论文《Attention is All You Need》中提出。在此之前，多数基于注意力的模型侧重于在序列任务如机器翻译中将注意力用于源和目标序列之间的关系。自注意力的提出标志着注意力机制的一个重大转变，即注意力也可以有效地应用于序列内部的元素之间，从而直接捕捉序列内的依赖关系。

自注意力机制的工作原理

自注意力机制通过计算序列中每个元素对于其他元素的注意力分数来工作，这允许模型在不同位置间直接捕捉到相关性。这种机制特别适合处理那些输入和输出之间关系复杂或者序列很长的任务。

关键组件

自注意力机制主要包含以下几个步骤：

输入表示：序列中的每个元素被编码为一个固定大小的向量。
查询（Query）、键（Key）、值（Value）计算：对于序列中的每个元素，使用不同的权重矩阵将其转换成查询向量、键向量和值向量。
注意力分数计算：对于序列中的每个元素，计算它与序列中所有元素（包括自己）的点积，得到注意力分数。
权重计算：使用softmax函数对注意力分数进行归一化，得到每个元素对其他元素的注意力权重。
输出表示：将权重应用于对应的值（Value）向量，并对它们进行加权求和，得到该元素的输出表示。

公式表达

假设有一个序列的元素集 $X = \{x_1, x_2, ..., x_n\}$ ，每个元素 $x_i$ 都通过线性变换得到对应的查询 ( Q )、键 ( K ) 和值 ( V )：
$XW^Q, \quad K = XW^K, \quad V = XW^V$
其中 $W^Q$ , $W^K$ , $W^V$ 是可学习的权重矩阵。

注意力分数 $a_{ij}$ 计算为：
$a_{ij} = \frac{exp(QK^T)_{ij}}{\sum_{k=1}^n exp(QK^T)_{ik}}$
即元素 ( i ) 对元素 ( j ) 的注意力权重是 ( i ) 的查询向量与 ( j ) 的键向量的点积，通过softmax归一化后得到。