局部特征H∈RC×W×H,criss-cross注意模块首先在H上应用两个具有1×1 filters的卷积层,分别生成两个特征图Q和K,其中{Q,K}∈RC’×W×H。C’是特征图的通道数(number of kernel),由于尺寸缩减,C‘小于C。
在获得特征图Q和K之后,我们通过Affinity运算进一步生成注意力图A∈R(H + W-1)×W×H。
在特征图Q的空间维度上的每个位置u,我们都可以得到向量Qu∈R C’。
同理,我们可以通过从K中提取特征向量来获得集合Ωu,集合中的元素是与u处于同一行以及同一列的向量。因此,Ωu∈R(H + W-1)×C‘,Ωi,u∈R C’是Ωu的第i个元素。
例如:
Qu=[1,3,5], C’=3,
Ωu=[ [1,2,8],[1,6,9],… H+W-1个]
Affinity运算的定义如下:
其中di,u∈D表示特征Qu与Ωi,u的相关程度,i = [1,…,|Ωu|],D∈R(H + W-1)×W× H。
然后,我们沿着D的channel维度应用softmax层,以计算注意力图A,A∈R(H + W-1)×W×H.
因为A∈R(H + W-1)×W×H,在H上应用另一个具有1×1 filters的卷积层以生成V∈R C×W×H以进行特征自适应。
在特征图V的空间维度上的每个位置u,我们都可以获得向量Vu∈RC,将u同行或同列的放入集合Φu∈R(H + W-1)×C
Aggregation操作:
Ai,u∈R(H + W-1),Φi,u∈R(H + W-1)×C