Exploring Self-attention for Image Recognition阅读笔记

CVPR 2020
Hengshuang Zhao, Jiaya Jia, Vladlen Koltun
https://arxiv.org/abs/2004.13621

一、简介

卷积具有两个功能。第一种是特征聚合,通过卷积核在特征图上进行卷积来融合特征的过程;第二种是特征变换,在卷积完成后进行一系列的线性和非线性变换(例如全连接层和激活函数)。

特征聚合和特征变换是可以解耦的,特征变换可以通过线性映射和非线性变换,因此我们将重点放在self-attention机制替代卷积用来特征聚集。

本文探索了两种self-attention的变体,一种是pairwise self-attention,另一种是patchwise self-attention。

二、Pairwise Self-attention

在这里插入图片描述

上式就是Pairwise Self-attention的数学公式,其中,⊙表示Hadamard product(矩阵的对应位置相乘)。

xi是特征图上的一个点,即一个n维向量。

R(i)表示一个以i为中心的邻域。

B是一种变换。

在这里插入图片描述

a(xi,xj)实际上就是求权重,δ函数是用来计算关系的。

γ={Linear→ReLU→Linear},是为了解决维度匹配的问题。

此外还将位置i和位置j的坐标信息纳入到了a(xi,xj)中。

三、Pathwise Self-attention

在这里插入图片描述

上式就是Pathwise Self-attention的数学公式,其中,⊙表示Hadamard product(矩阵的对应位置相乘)。

Pairwise Self-attention和Pathwise Self-attention的区别在于,Pairwise Self-attention是用(xi和xj)配对的方式计算权重a,而Pathwise Self-attention是用整个区域来计算权重a。

在这里插入图片描述

四、整体结构

在这里插入图片描述

左侧计算函数a得到权重,右侧通过线性变换,然后使用Hadamard product聚合权重,从而得到组合特征。

组合的特征经过归一化和基本非线性处理,并由最终的线性层处理,该层将它们的维度扩展回C。

在这里插入图片描述

上图是以Pairwise Self-attention为例的具体流程图,其中关系函数使用Summation。

在这里插入图片描述

上图是SAN网络结构图。

五、实验

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ma lidong

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值