self-attention——自注意力机制


self-attention出来后 RNN逐渐被取缔。

向量的形式
  1. 声音向量
  2. 图中的每个结点
机制流程

先计算某个向量和其他向量之间的关联性。
在这里插入图片描述
W q W^q Wq W v W^v Wv是两个矩阵, a 1 a1 a1 a 2 a2 a2乘以这两个矩阵后得到两个向量 q q q , k ,k ,k,再点乘得到attention的分数 α α α
在这里插入图片描述
得到后attention的分数 α α α后再对每个 a i a^i ai乘以一个矩阵得到对应的 v i v^i vi,再求和得 b = Σ b=\Sigma b=Σ a v av av
在这里插入图片描述
我们要训练的参数就是 W K W^K WK, W Q W^Q WQ, W V W^V WV

多头注意力机制

在这里插入图片描述

在这里插入图片描述

缺点

缺点是表示位置信息不好,但是也可以加入位置编码。

适用范围

输入是一排向量

CNN和self-attention的关系

具体可以参考下篇论文,这里我也没太懂
On the Relationship between Self-Attention and Convolutional Layers
在这里插入图片描述

CNN是划分卷积核,而self-attention是自己学习出卷积核大小。CNN在数据较小的时候得到的性能较好,而self-attention在数据较大的时候性能更好。

self-attention和RNN的关系

self-attention可以一波产生,RNN是递进产生。
参考下面一篇文章
Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention

self-attention for Graph

就是一种GNN

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值