self-attention(自注意力机制)

论文地址:https://arxiv.org/abs/1706.03762

notes:在transform中使用到了self-attention,所以对其中进行简要笔记。

Q1:为什么要提出self-attention?

A1:self-attention就是想让计算机和人一样有关注的重点

比如:qinxin is a good gril,she looks beautiful,

其中这个she代表的是哪一个,对于我们来说很简单,对于计算机就很难,所以需要让计算机的注意力,集中到qinxin上去,就是我们要做的部分。

Q2:基本流程

A2:首先我们输入4个向量,然后通过self-attention全部进行接收,然后进行self-attention后,输出的结果就是with context的了(与背景或是上下文有关的了),之后在进行操作之后就不仅仅是只考虑在单独的输入对象,而考虑的是整体(如在进行3D-UNet 类似,进行上下文提取)。

如图下面\alpha ^{1},\alpha ^{2},\alpha ^{3},\alpha ^{4}是4个输入向量,其中b^{1}是对于\alpha ^{1}的输出向量。

 \alpha ^{1}需要和\alpha ^{2},\alpha ^{3},\alpha ^{4}进行比较,得出各个比较值中的\alpha然后权值最大的\alpha就是输出的b^{1}

详解:​​​​​​Transformer中Self-Attention以及Multi-Head Attention详解_哔哩哔哩_bilibili对Transformer中的Self-Attention以及Multi-Head Attention进行详解。https://b23.tv/gucpvt

 详解Transformer中Self-Attention以及Multi-Head Attention_霹雳吧啦Wz-CSDN博客_multi-head self-attention原文名称:Attention Is All You Need原文链接:https://arxiv.org/abs/1706.03762最近Transformer在CV领域很火,Transformer是2017年Google在Computation and Language上发表的,当时主要是针对自然语言处理领域提出的(之前的RNN模型记忆长度有限且无法并行化,只有计算完tit_iti​时刻后的数据才能计算ti+1t_{i+1}ti+1​时刻的数据,但Transformer可以)。在这篇文章中作者提出了Shttps://blog.csdn.net/qq_37541097/article/details/117691873

 

 台大李宏毅21年机器学习课程 self-attention和transformer_哔哩哔哩_bilibili

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值