CVPR 2020
Hengshuang Zhao, Jiaya Jia, Vladlen Koltun
https://arxiv.org/abs/2004.13621
一、简介
卷积具有两个功能。第一种是特征聚合,通过卷积核在特征图上进行卷积来融合特征的过程;第二种是特征变换,在卷积完成后进行一系列的线性和非线性变换(例如全连接层和激活函数)。
特征聚合和特征变换是可以解耦的,特征变换可以通过线性映射和非线性变换,因此我们将重点放在self-attention机制替代卷积用来特征聚集。
本文探索了两种self-attention的变体,一种是pairwise self-attention,另一种是patchwise self-attention。
二、Pairwise Self-attention
上式就是Pairwise Self-attention的数学公式,其中,⊙表示Hadamard product(矩阵的对应位置相乘)。
xi是特征图上的一个点,即一个n维向量。
R(i)表示一个以i为中心的邻域。
B是一种变换。
a(xi,xj)实际上就是求权重,δ函数是用来计算关系的。
γ={Linear→ReLU→Linear},是为了解决维度匹配的问题。
此外还将位置i和位置j的坐标信息纳入到了a(xi,xj)中。
三、Pathwise Self-attention
上式就是Pathwise Self-attention的数学公式,其中,⊙表示Hadamard product(矩阵的对应位置相乘)。
Pairwise Self-attention和Pathwise Self-attention的区别在于,Pairwise Self-attention是用(xi和xj)配对的方式计算权重a,而Pathwise Self-attention是用整个区域来计算权重a。
四、整体结构
左侧计算函数a得到权重,右侧通过线性变换,然后使用Hadamard product聚合权重,从而得到组合特征。
组合的特征经过归一化和基本非线性处理,并由最终的线性层处理,该层将它们的维度扩展回C。
上图是以Pairwise Self-attention为例的具体流程图,其中关系函数使用Summation。
上图是SAN网络结构图。