![4368e87d2c3a83211f078d0cd44953ce.png](https://img-blog.csdnimg.cn/img_convert/4368e87d2c3a83211f078d0cd44953ce.png)
![750667e343912ce01337e9dba508a8dc.png](https://img-blog.csdnimg.cn/img_convert/750667e343912ce01337e9dba508a8dc.png)
关注微信公众号:人工智能前沿讲习 回复"蒋正锴"获取PPT与视频资料 视频资料可点击下方阅读原文在线观看
导读
在神经网络中,我们知道卷积层通过卷积核和原始特征的线性结合得到输出特征,由于卷积核通常是局部的,为了增加感受野,往往采取堆叠卷积层的方式,实际上这种处理方式并不高效。同时,计算机视觉的很多任务都是由于语义信息不足从而影响最终的性能。自注意力机制通过捕捉全局的信息来获得更大的感受野和上下文信息。这次的分享主要从自注意力的角度分析最近的一些发展,以及相应的改进方案。
作者简介
蒋正锴,中科院自动化所模式识别国家重点实验室在读二年级硕士,本科毕业于东北大学自动化专业,发表AAAI 论文一篇,ECCV 2018实例分割第三名成员(第四作者)。目前的研究兴趣在图像视频的检测分割。
![2d378f877f70fdf326abed39a11ed674.png](https://img-blog.csdnimg.cn/img_convert/2d378f877f70fdf326abed39a11ed674.png)
Introduction
自注意力机制 (self-attention)[1] 在序列模型中取得了很大的进步;另外一方面,上下文信息(context information)对于很多视觉任务都很关键,如语义分割,目标检测。自注意力机制通过(key, query, value)的三元组提供了一种有效的捕捉全局上下文信息的建模方式。接下来首先介绍几篇相应的工作,然后分析相应的优缺点以及改进方向。
RelatedWorks
Attention is all you need [1] 是第一篇提出在序列模型中利用自注意力机制取代循环神经网络的工作,取得了很大的成功。其中一个重要的模块是缩放点积注意力模块(scaled dot-product attention)。文中提出(key,query, value&#