Self-Attention 自注意力机制（二）——实例过程说明

qiaoxinyu10623

已于 2024-07-18 14:29:08 修改

阅读量1.6k

点赞数 20

文章标签：算法

于 2024-07-16 17:14:13 首次发布

本文链接：https://blog.csdn.net/qiaoxinyu1989/article/details/140459480

版权

声明：本文章是根据网上资料，加上自己整理和理解而成，仅为记录自己学习的点点滴滴。可能有错误，欢迎大家指正。

一、自注意力机制核心过程

自注意力机制（Self-Attention Mechanism），也称为内部注意力机制，是一种在序列模型中用于捕捉序列内部不同位置之间依赖关系的技术。这种机制允许模型在处理序列时，对序列中的每个元素分配不同的权重，这些权重反映了元素之间的相互关系。自注意力机制的关键在于它不需要像循环神经网络（RNN）那样逐步处理序列，因此可以并行化计算，并且可以捕捉长距离依赖。

自注意力机制的核心原理可以概括为以下几个步骤：

表示（Representation）：对序列中的每个元素（例如单词、时间点等）进行表示，通常通过嵌入（Embedding）层将元素转换为固定维度的向量。
查询（Query）、键（Key）、值（Value）：将每个元素的表示向量分解为三个向量：查询（Q）、键（K）、值（V）。这些向量可以是同一个表示的不同线性变换，也可以通过不同的网络层来学习。
注意力分数（Attention Scores）：计算每个元素的查询向量与序列中所有键向量之间的相似度得分。这通常通过点积（Dot Product）来实现，然后通常会应用一个缩放因子（例如除以键向量的维度的平方根），以避免梯度消失或爆炸问题。
权重分配（Weighting）：使用softmax函数对注意力分数进行归一化处理，得到每个元素对于序列中其他元素的权重。归一化确保了所有权重的和为1。
加权求和（Weighted Sum）：将归一化的注意力权重与对应的值向量相乘，然后对所有元素的加权值向量求和，得到最终的输出向量。
输出（Output）：得到的加权求和向量可以作为序列中每个元素的输出表示，它包含了序列内部的全局信息。

自注意力机制的一个关键优势是其能够捕捉序列中任意两个元素之间的依赖关系，无论它们在序列中的距离有多远。这种能力使得自注意力机制在处理长序列和复杂依赖关系时特别有效，例如在自然语言处理（NLP）中的翻译、文本摘要、问答系统等任务中。

在深度学习框架中，自注意力机制可以通过多头注意力（Multi-Head Attention）进一步扩展，其中模型并行地执行多个自注意力层，每个层学习到序列的不同表示子空间，最终将这些表示合并，以捕获更丰富的信息。这种机制在Transformer模型中得到了广泛应用。

数学上，嵌入层过程可以表示为： Embedding(𝑤)=𝐸×OneHot(𝑤) 其中：
𝐸 是嵌入权重矩阵。
𝑤是词汇表中的单词或标记。
OneHot(𝑤) 是单词 𝑤 的独热编码向量。
Embedding(𝑤) 是单词 𝑤的嵌入向量。

详细过程通过下述例子说明。如机器翻译，有一个英文句子 "I love natural language " 需要翻译成另一种语言。在使用自注意力机制的模型中，首先会将每个单词转换为一个向量形式，这些向量是通过嵌入层得到的。

二、表示或嵌入过程：

嵌入层（Embedding Layer）是一种在深度学习和机器学习中常用的技术，特别是在处理自然语言处理（NLP）任务时。嵌入层的主要作用是将离散的输入数据（如单词、字符或其他类型的标记）转换为连续的向量表示。这些向量捕捉了输入数据的语义和语法特征。

嵌入层的数学表达通常如下： Embedding(w)=E×w 其中，𝑤 是离散的输入单词或标记，𝐸是嵌入权重矩阵，Embedding(𝑤)是单词 𝑤的连续向量表示。在实际应用中，嵌入层通常作为模型的第一层，为后续的神经网络层（如卷积层、循环层或Transformer层）提供输入。

嵌入层将离散的单词或标记转换为实数向量的过程通常涉及以下几个步骤：

词汇表构建:首先，需要构建一个词汇表，其中包含所有在训练数据中出现的唯一的单词或标记。每个单词或标记在词汇表中被分配一个唯一的索引。

如："I love natural language "只包含4个单词：["I", "love", "natural", "language"]。我们想要将这些单词嵌入到一个2维的空间中（即嵌入维度为2）。词汇表索引分配可能是这样的：

I -> 索引 0
love -> 索引 1
natural-> 索引 2
language-> 索引 3