创新点:
网络结构如上所示,由dense连接方式的残差模块堆叠而成,论文没有细看,主要关注了Local Aware Attention和Global Aware Attention。
1.Local Aware Attention:
出发点与其他的Attention机制一样,想让网络多关注带高频信息的特征位置。具体操作如下:
1.先对输入的H * W * C 特征图TD,进行一个AvgPooling,此时得到池化后H/ks * W/ks * C大小的特征图TDA,TDA中的每个值代表TD对应地某一特定子区域的平均强度;
2.对TDA进行ks倍的上采样得到H * W * C原图大小的特征图TDU,得到的TDU可以看作是原始TD中各子区域平均平滑信息的表达式。本质上,feature map中的每个元素代表了上一层feature map中特定区域的嵌入特征和信号强度;
3.按照TDR = Relu(TD - TDU)的公式,TDR中的每个值表示前一层feature map中对应的子区域是否超过平均子区域平滑度。直白来说,高频信息的特征值会超过这个子区域的平均信号强度;
4.根据TˆD = TD + βTDR ⊗ TD的公式,先试用TDR与TD点乘,乘以一个强调高频信息的系数β,再与TD相加,得到Local Aware Attention后的特征图。
2.Global Aware Attention:
应用于上采样后的特征图,与SENet中的Channel Attention机制差不多,唯一的区别就是SENet中使用Global Average Pooling得到1 x 1 x C的特征图,这里使用了一个卷积层。