自注意力机制

场景引入

vector set as input

语句输入
在这里插入图片描述图输入
在这里插入图片描述

output

每个向量都有一个标签(sequence labeling)
整个句子只有一个标签
or
输出不设限
在这里插入图片描述

sequence labeling

让全连接考虑上下文特性
如何确定不等长句子的window size
self-attention可以接受一整个sequence的信息,输入几个vector结合context就可以输出几个label
在这里插入图片描述

self-attention

请添加图片描述
注: b i ( 1 ≤ i ≤ 4 ) 是同时计算出来的, a i , j 为 q i 和 k j 的内积。请添加图片描述

multi-head self-attention

多个QKV,并将结果拼接起来在这里插入图片描述

position encoding

对于Self-attention来说,并没有序列中字符位置的信息。例如动词是不太可能出现在句首的,因此可以降低动词在句首的可能性,但是自注意力机制并没有该能力。因此需要加入 Positional Encoding 的技术来标注每个词汇在句子中的位置信息。
每一个位置都有一个特有的位置向量ei
token新的向量表示将位置向量与表示向量融合以获得新的表示
请添加图片描述self-attention与CNN对比
An Image is Worth 16×16 Words:Transformers for Image Recognition at Scale
self-attention与RNN的对比
Transformers are RNNs:Fast Autoregressive Transformers with Linear Attention

self-attention for graph
只需要计算有边相连的点之间的attention
GCN
在这里插入图片描述
更全面的介绍:综述——Effcient Transformers:A Survey

自注意力机制的缺点就是计算量非常大,因此如何优化其计算量是未来研究的重点。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值