Attention Augmented Convolutional Networks阅读笔记

ICCV 2019
Irwan Bello, Barret Zoph, Ashish V aswani, Jonathon Shlens

一、简介

卷积只对局部领域进行运算,因此会丢失全局信息。

提出了Attention Augmentation method(注意增强方法),利用self-attention机制来增强卷积算子。将强调局部性的卷积特征映射与能够对较长范围的相关进行建模的self-attention特征映射连接起来。

二、Self-attention over images

2.1 multihead-attention(MHA)

在这里插入图片描述

上式是一个single head的self-attention表达式。

其中,X是输入,O是输出,W是参数,d是K的维度。X通过不同的参数W会生成Q、K和V。

在这里插入图片描述

上式就是MHA的表达式。就是求得多个single head,对它们得结果进行拼接后再通过一个参数W得到最后得结果。

2.2 Relative positional embeddings

在这里插入图片描述

如果不使用位置信息,那将导致self-attention得排列是等价的,对于诸如图像这种高度结构化数据得建模是无效的。

已经提出的引入正弦波扩展位置信息和连接CoorConv位置通道,但是这些位置编码对于图像分类和目标检测没有帮助,可能的原因是这些位置编码虽然不是排列等变的,但是不满足平移等变。

为此,我们提出了二维相对位置编码。

在这里插入图片描述

我们通过独立地添加相对高度信息和相对宽度信息来实现二维相对自注意力机制。

在这里插入图片描述

上式是添加了二维位置编码的self-attention表达式。

其中,二维位置编码是可学习的。

三、Attention Augmented Convolution

所提出的注意力增强卷积是平移等变的,且很容易对不同空间维度的输入进行运算。

在这里插入图片描述

在这里插入图片描述

上式是Attention-augmented(增强卷积)的表达式。

实际操作就是将运算得到的卷积特征映射和self-attention特征映射拼接起来。

在这里插入图片描述

在实验中发现,在使用较少参数的情况下,注意力增强网络的性能仍然明显优于完全卷积网络。

参数量少,但是存储量大,因为有大量的矩阵运算。

四、实验

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ma lidong

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值