【笔记一】注意力机制初了解

最新推荐文章于 2024-07-25 11:12:43 发布

hhhhhhkkkyyy

最新推荐文章于 2024-07-25 11:12:43 发布

阅读量521

点赞数 10

文章标签：笔记

本文链接：https://blog.csdn.net/2301_80365008/article/details/139122756

版权

在注意力机制（Attention Mechanism）中，Query、Key和Value是三个重要的向量，它们各自具有多个维度。

Key，Value表示字典中的键值对，而Query表示我们需要查询的键，Query与Key，Value匹配其得到的结果就是我们需要的信息；但是在这里并不要求Query与Key严格匹配，只需要模糊匹配就可以。匹配程度越高，权重就越大，然后根据权重再与每一个Value进行组合，得到最后的结果；其匹配程度的权重就代表了注意力机制的权重。

Query与Key通过点乘计算两者的相似度，由于会遇到两个差额很大的向量维度点乘，所以我们会进行缩放（scale）避免后续操作出现极端情况，再通过softmax（）归一化生成注意力权重系数矩阵。（Q中任意一元素与K的每个元素相似度权重之和为1，权重系数的大小代表重要特征的强弱程度）

多头注意力（Multi-Head Attention）是一种并行运行的多个注意力机制，每个注意力机制（或“头”）独立地计算注意力分数，从而从多个角度捕获输入序列的潜在语义关联。这种机制广泛应用于Transformer模型中。

它将Query、Key和Value多个维度的向量分为几个少数维度的向量组合（通过捕获原始高维向量中的主要变化或特征），再在降维向量中进行操作，最后把结果合并。

降维：用于减少数据的复杂性，同时尽量保留原始数据中的重要信息。简化计算同时降低模型复杂性，减少过拟合风险，二维比三维更容易可视化。（但是一个有损的过程）

多个维度向量：是指Query、Key和Value包含的多个特征或属性，每个维度代表不同的特征或属性。这些特征或属性可能是输入数据本身的属性（如图像中的像素值、文本中的单词嵌入等），也可能是通过某种方式（如神经网络）从输入数据中提取出来的更高级的特征。

运用领域：多头注意力机制在自然语言处理、图像识别、语音识别、推荐系统等领域有广泛应用。在自然语言处理中，多头注意力机制可以实现词义的注意力加权处理，提高自然语言翻译、文本分类、情感分析等任务的准确性和效率。在图像识别中，它可以实现图片中各个特征区域的注意力加权处理，提高目标检测、图像分类、人脸识别等任务的准确性和效率。在语音识别中，它可以实现对语音信号中各个特征频率的注意力加权处理，提高语音识别的准确性和效率。在推荐系统中，它可以实现用户兴趣和物品关系的注意力加权处理，提高推荐结果的个性化和吸引力。

自注意力机制、注意力机制以及多头注意力机制之间的区别和特点。

注意力机制（Attention Mechanism）其核心思想是通过赋予每个输入部分不同的权重，使模型能够专注于与目标任务最相关的部分。这种机制可以应用于多种领域，如自然语言处理、图像识别等。

自注意力机制（Self-Attention）在自注意力机制中，每个输入元素与序列中的所有其他元素进行交互，以捕获序列内部的依赖关系，计算注意力权重。这种机制可以处理序列中的长距离依赖关系，并且不依赖于任何外部信息，只依赖于输入序列本身。

多头注意力机制（Multi-Head Attention）是在自注意力机制的基础上发展而来的。它的主要特点是能够在多个不同的表示子空间中计算注意力权重。在多头注意力机制中，模型的输入首先被投影到多个子空间，然后在每个子空间中独立计算自注意力权重。接下来，这些子空间的注意力输出会被合并为一个输出序列。这种机制可以让模型同时处理来自多个表示子空间的信息，从而提高模型的表示能力。

注意力机制的变体主要包括以下几种：

多头注意力（Multi-Head Attention）

自注意力（Self-Attention）

交叉注意力（Cross-Attention）：主要用于处理两个不同输入序列之间的交互。它计算一个序列（通常作为Query）的元素与另一个序列（通常作为Key和Value）的元素之间的注意力分数，从而关注到两个序列之间的相关性和交互。（自注意力：Query、Key和Value都来自同一个输入序列）

hhhhhhkkkyyy

关注

10
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
【笔记一】注意力机制初了解

它计算一个序列（通常作为Query）的元素与另一个序列（通常作为Key和Value）的元素之间的注意力分数，从而关注到两个序列之间的相关性和交互。这些特征或属性可能是输入数据本身的属性（如图像中的像素值、文本中的单词嵌入等），也可能是通过某种方式（如神经网络）从输入数据中提取出来的更高级的特征。（Self-Attention）在自注意力机制中，每个输入元素与序列中的所有其他元素进行交互，以捕获序列内部的依赖关系，计算注意力权重。自注意力机制、注意力机制以及多头注意力机制之间的区别和特点。
复制链接

扫一扫