【笔记一】注意力机制初了解

在注意力机制(Attention Mechanism)中,Query、Key和Value是三个重要的向量,它们各自具有多个维度。

Key,Value表示字典中的键值对,而Query表示我们需要查询的键,Query与Key,Value匹配其得到的结果就是我们需要的信息;但是在这里并不要求Query与Key严格匹配,只需要模糊匹配就可以。匹配程度越高,权重就越大,然后根据权重再与每一个Value进行组合,得到最后的结果;其匹配程度的权重就代表了注意力机制的权重

Query与Key通过点乘计算两者的相似度,由于会遇到两个差额很大的向量维度点乘,所以我们会进行缩放(scale)避免后续操作出现极端情况,再通过softmax()归一化生成注意力权重系数矩阵。(Q中任意一元素与K的每个元素相似度权重之和为1,权重系数的大小代表重要特征的强弱程度)

多头注意力(Multi-Head Attention)是一种并行运行的多个注意力机制,每个注意力机制(或“头”)独立地计算注意力分数,从而从多个角度捕获输入序列的潜在语义关联。这种机制广泛应用于Transformer模型中。

它将Query、Key和Value多个维度的向量分为几个少数维度的向量组合(通过捕获原始高维向量中的主要变化或特征),再在降维向量中进行操作,最后把结果合并。

降维:用于减少数据的复杂性,同时尽量保留原始数据中的重要信息。简化计算同时降低模型复杂性,减少过拟合风险,二维比三维更容易可视化。(但是一个有损的过程)

多个维度向量:是指Query、Key和Value包含的多个特征或属性,每个维度代表不同的特征或属性。这些特征或属性可能是输入数据本身的属性(如图像中的像素值、文本中的单词嵌入等),也可能是通过某种方式(如神经网络)从输入数据中提取出来的更高级的特征。

运用领域:多头注意力机制在自然语言处理、图像识别、语音识别、推荐系统等领域有广泛应用。在自然语言处理中,多头注意力机制可以实现词义的注意力加权处理,提高自然语言翻译、文本分类、情感分析等任务的准确性和效率。在图像识别中,它可以实现图片中各个特征区域的注意力加权处理,提高目标检测、图像分类、人脸识别等任务的准确性和效率。在语音识别中,它可以实现对语音信号中各个特征频率的注意力加权处理,提高语音识别的准确性和效率。在推荐系统中,它可以实现用户兴趣和物品关系的注意力加权处理,提高推荐结果的个性化和吸引力。

自注意力机制、注意力机制以及多头注意力机制之间的区别和特点。

注意力机制(Attention Mechanism)其核心思想是通过赋予每个输入部分不同的权重,使模型能够专注于与目标任务最相关的部分。这种机制可以应用于多种领域,如自然语言处理、图像识别等。

自注意力机制(Self-Attention)在自注意力机制中,每个输入元素与序列中的所有其他元素进行交互,以捕获序列内部的依赖关系,计算注意力权重。这种机制可以处理序列中的长距离依赖关系,并且不依赖于任何外部信息,只依赖于输入序列本身。

多头注意力机制(Multi-Head Attention)是在自注意力机制的基础上发展而来的。它的主要特点是能够在多个不同的表示子空间中计算注意力权重。在多头注意力机制中,模型的输入首先被投影到多个子空间,然后在每个子空间中独立计算自注意力权重。接下来,这些子空间的注意力输出会被合并为一个输出序列。这种机制可以让模型同时处理来自多个表示子空间的信息,从而提高模型的表示能力。

注意力机制的变体主要包括以下几种

多头注意力(Multi-Head Attention)

自注意力(Self-Attention)

交叉注意力(Cross-Attention):主要用于处理两个不同输入序列之间的交互。它计算一个序列(通常作为Query)的元素与另一个序列(通常作为Key和Value)的元素之间的注意力分数,从而关注到两个序列之间的相关性和交互。(自注意力:Query、Key和Value都来自同一个输入序列)

  • 10
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
引用提到了CBAM(Convolutional Block Attention Module)是一种卷积神经网络注意力机制,而引用提到了作者在对注意力机制进行分类总结时,参考了一些综述和网上资料,并加入了一些新的内容。由于没有具体提到QKV自注意力机制与CBAM的关系,我们可以通过引用中的文献《An Introductory Survey on Attention Mechanisms in NLP Problems》来了解QKV自注意力机制。 根据中的文献,QKV自注意力机制是自然语言处理问题中的一种注意力机制。在自注意力机制中,输入序列(例如句子中的单词)通过计算查询(query)、键(key)和值(value)之间的相似度,以便为每个输入位置分配一个权重,用于生成上下文相关的表示。具体而言,在QKV自注意力机制中,查询是用于获取与其他输入位置相关信息的位置,键是用于计算查询和其他位置之间的相似度,值是用于生成每个位置的加权和表示。 CBAM是一种卷积神经网络的注意力机制,与QKV自注意力机制在具体实现和应用上可能有所不同。在CBAM中,注意力机制主要用于在卷积神经网络中关注输入特征图的不同通道和空间位置,以提高模型的性能。CBAM主要包括通道注意力和空间注意力两个模块,通道注意力用于对不同通道的特征进行加权,而空间注意力用于对不同空间位置的特征进行加权。 综上所述,QKV自注意力机制和CBAM都是注意力机制的一种,但在具体实现和应用上可能有所差异。QKV自注意力机制主要应用于自然语言处理问题,而CBAM是一种卷积神经网络的注意力机制,用于提高模型性能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [学习笔记|NLP中的注意力机制汇总](https://blog.csdn.net/qq_33648725/article/details/106770048)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值