【深度学习3】Self-Attention注意力机制(李宏毅)

2021 - 自注意力机制(Self-attention)(上)_哔哩哔哩_bilibili

2021 - 自注意力机制 (Self-attention) (下)_哔哩哔哩_bilibili

目录

三种输入输出间关系

常规方法

注意力机制原理

Self-attention的问题

和其他网络对比

在Graph上的应用

更多

三种输入输出间关系

 3种类型的输出,只讲第一种类型

常规方法

 但是句子长度有长有短,这种方法不合适

注意力机制原理

 展开:

 计算a1和后面所有输入之间的相关性α

  计算α的两种方式,将两个输入分别乘wq和wk矩阵,结果再处理得到α,左边方法最常用。

 具体流程,计算出自相关和互相关后经过softmax或者Relu都可以:

 

 

矩阵化计算 

 

 

 只需学习wq、wk、wv三个矩阵的参数

 multi-head Self-attention

因为一个Q和V只负责了一个种类的相关性,需要多个Q和K,负责多个总类的相关性。

Q K V分别乘一个矩阵分成两个,分开相乘,最后的b1和b2拼起来作为最后的结果。 

Self-attention的问题

没有对每个词向量的位置编码,少了位置信息。(没有距离远近之分,天涯若比邻)

拼接position encoding

 当句子太长,会导致相关性矩阵太大,可以只考虑一部分不考虑全局。

CNN就是简化版的Self-attention,如果Self-attention 参数设置合适可以达到和CNN一样的效果。

每一个像素pixel是一个长度为3的向量。

和其他网络对比

数据量越大self-attention训练效果越好,数据量少了CNN效果好,因为弹性小。

和RNN对比,RNN容易忘记长的序列,并且不能平行处理, ST天涯若比邻。

RNN接近淘汰了快,可以被S-AT代替。

在Graph上的应用

 在图上计算S-AT时,只需计算有edge相连的边就好,不用全部计算了。

 没有关联相关性就不用SAT计算,直接是0。

把S-AT用在Grapu上是某一种类型的GNN。

更多

更多S-AT的变行可以看下面这两篇论文的介绍。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值