注意力机制

定义

注意力(Attention)机制是神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,将关注点聚焦于数据中最重要的部分。本质是从关注全部到关注重点。

​ Attention 机制最早应用于计算机视觉领域,随后应用于NLP 领域,因2018 年 BERT 和 GPT 在NLP任务处理的优异性而走红

在这里插入图片描述

​ Attention在NLP中的位置

​ 举个例子来类比注意力机制和人类注意力。假设你站在一条步行街,你的视野范围内有许许多多的事物(人、门店、路灯、地砖等等),你会被比较光鲜亮丽的事物吸引眼球,也会因为自己的需求关注某些事物(比如你想找个饭店,那么你就会关注门店牌匾),但无论哪种方式,你眼里的所有的事物的重要程度肯定是不一样的。而注意力机制就是模仿这一个过程,给定输入序列,识别出序列中的重要信息。

原理

​ 需要说明的是,Attention计算方式有多种,常见的有缩放点积、加性和相对位置编码的点积注意力等,这里以最常见的缩放点积注意力为例。

​ 注意力机制的原理主要涉及三个矩阵Q、K和V变换和相互计算。首先我们输入数据X,再对X进行三个线性变换得到Q、K和V矩阵,分别对应查询、键、值矩阵。最后再用这三个矩阵计算注意力得分。具体过程如下:

  • 输入表示:输入序列为矩阵X,X的每一行表示输入序列中的一个词或一个时间步的向量。

  • 通过线性变换得到Q、K和V矩阵。WQ、Wk和Wv是可训练的权重矩阵,分别用于将输入向量投影到查询、键和值的空间。
    在这里插入图片描述

  • 计算注意力得分。通过点积计算每个查询向量与所有键向量之间的相似度,得到注意力得分矩阵。

    ​ 为更进一步了解注意力机制的原理,我们提出三个问题,并一一回答。

  • Q、K、V的物理意义是什么?

  • 为什么要对输入数据X进行线性变换?

  • <
  • 33
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值