self－attention自注意力机制

最新推荐文章于 2022-10-21 18:44:06 发布

sunsiney

最新推荐文章于 2022-10-21 18:44:06 发布

阅读量318

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_44813641/article/details/115787293

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

基于李宏毅课程

解决问题:适合处理序列输入的问题。对于输入不限制于考虑窗口内几个单元的联系，而是考虑整个输入序列各单元的联系。
相关知识:
input:一个向量或者是一组向量

output:针对序列输入，根据输出不同可以把问题归类为三类
输入输出一一对应，如词性标注问题。
输出为类别标签，归类问题，如情感分类。
输出长度不确定，如翻译问题。

注意力得分及当前单元和其他输入单元关联程度的计算方法:dot－product或者additive
原理
在模型中使用示例如下，FC为全连接层。
如何计算各输入单元之间的关联程度？
如图，当前正在计算a1与各个单元之间的联系。首先将原向量和各自权重矩阵相乘得到输出，q(当前query)，k(各相关单元)。q与k进行点乘得到阿尔法，将得到的阿尔法送入softmax归一化得到最终的相关性，表示各个单元和query联系的重要程度。
注:要计算query与自己的关系，本人以为这样可以有个参考，自己与自己的关系肯定最为紧密，计算其他单元最终进行归一化的时候有作用。

如何基于注意力得分提取特征？
将注意力得分与各自单元处理过的输入向量点成求和，此时针对query的输出b已经融合了各个输入单元的特征，关联程度大的，在b中存储的信息也多。
矩阵计算的实现
流程总结：

获得每个单元的qkv：每个单元qkv
计算自注意力得分： score
计算最终输出： outpu
6. 应用
①NLP:本身为序列输入，每一个分词为一个单元。
②语音处理:语音编码为向量后，类似于NLP.
③图像:自注意力机制适合处理序列输入，而图像本身的输入并不适合。但是可以稍微处理为序列数据，如把图像上每个像素对应的RGB三个通道作为一个向量单元，这样就处理为长×宽个三维向量的序列输入
④图:图中每个节点就可以作为一个单元，并且可以根据节点之间的边连接特征作为计算注意力得分的依据。
图的注意力得分计算
7. 和其他网络对比
①CNN
自注意力机制是复杂的CNN。经过适当的处理可以作为CNN使用。CNN中的每个filter处理的是局部信息，而自注意力机制可以处理全局信息。
在这里插入图片描述
②RNN
他俩都是适合处理序列输入的，但是有几个不同之处
RNN考考虑的是当前单元前面的输入信息，而自制力机制可以考虑全局。当然，RNN也有双向的，从这个角度考虑，二者差别并不大。
从处理速度上来看，自注意力机制可以并行处理，而RNN只能等待前面处理完之后再计算本单元的输出。这有类似于cpu算术运算单元对乘法的处理，可以提高速度。
还有，对于长序列，自注意力机制也可以很好的获得全局信息，不受位置的影响，而RNN对于长序列的处理能力有限，对离自己远的单元特征提取效果甚微。
在这里插入图片描述
8. 变形
selfattention计算量比较大针对速度提高也发展了很多变体。
也出现了multi－head的处理：

自注意力机制并没有考虑到单元位置对结果的影响可以在训练时加入positon信息。

sunsiney

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
self－attention自注意力机制

基于李宏毅课程解决问题:序列输入和序列输出问题，对于输入不限制于考虑窗口内几个单元的联系，而是考虑整个输入序列各单元的联系。相关知识:input:一个向量或者是一组向量output:针对序列输入，根据输出不同可以把问题归类为三类输入输出一一对应，如词性标注问题。输出为类别标签，归类问题，如情感分类。输出长度不确定，如翻译问题。注意力得分及当前单元和其他输入单元关联程度的计算方法:dot－product或者additive原理在模型中使用示例如下，FC为全连接层。如何计算各输入单
复制链接

扫一扫