论文地址:[2012.11879] FcaNet: Frequency Channel Attention Networks (arxiv.org)
代码地址:cfzd/FcaNet: FcaNet: Frequency Channel Attention Networks (github.com)
1、研究背景
1)通常来说,由于有限的计算资源开销,通道注意力机制需要对每个通道的标量进行计算来获得权重函数,而全局平均池化(GAP)操作由于其易用性和高效性无疑是最佳的选择。但GAP操作,即“平均”操作会极大的抑制特征的这种多样性,均值信息是否不足以代表不同的特征通道。
2)目前已提出一些对GAP的改进方法,例如 global max pooling 和 global standard deviation pooling。
2、主要贡献
1)创新性地将通道注意力中的标量表示视为压缩问题,因而引入图片压缩中常用到的DCT。并用数学证明了全局平均池化GAP是DCT的一种特殊情况,最后在频域中提出多光谱通道注意力框架FcaNet。
2)提出三种频率分量选择标准。
3)在ImageNet 和 COCO数据集上达到最佳。
4)所提出方法不仅有效还非常简单,只需在现有的通道注意力实现中修改一行代码即可。
图片注解:在ImageNet数据集上的分类准确率。可以看到,在相同参数和计算成本的前提下,我们的方法始终比SENet和ResNet表现好。
3、研究方法
3.1 回顾DCT和通道注意力
1)离散余弦变换
可以看到,DCT可以看作输入的加权和,经过DCT后,张量大小不变。
2)通道注意力机制
3.2 多光谱通道注意力
1)定理证明:全局平均池化GAP是二维DCT的一种特殊情况。
2)多光谱通道注意力模块
从1)中证明的定理可知,在通道注意力中使用GAP意味着只有最低频的信息被保留了,所有其他频率的分量都被忽略了,但因为它们在表示通道中都包含了有用的信息,所以不应该被忽略掉。因此我们尝试利用多个DCT后的频率分量(包括GAP),以此丰富对通道的表示。
因此,整个多光谱通道注意力框架可以写为:
3)选择频率分量的标准
标准一:FcaNet-LF
仅选择低频分量。
标准二:FcaNet-TS (Two-Step selection)
分别评估每个频率分量在通道注意力中的重要性,选择表现最好的前K个频率。
标准三:FcaNet-NAS (Neural Architecture Search)
使用神经架构搜索来寻找最好的频率分量。
4、实验结果
1)在ImageNet数据集上的图像分类
下图只截取了部分
任务类型:图像分类
骨干网络: ResNet-34, ResNet-50, ResNet-101, and ResNet-152
数据集:ImageNet
评价指标:network parameters, floating point operations per second (FLOPs), and frame per second (FPS) 和 effectiveness (i.e., Top-1/Top-5 accuracy)
2)在COCO数据集上的目标检测
下图只截取了部分
任务类型:目标检测
数据集:MS COCO
3)在COCO数据集上的实例分割
任务类型:实例分割
数据集:MS COCO
5、消融实验
5.1 每个单独频率分量的作用
方法:一次单独使用一个频率分量,对比实验效果。
结果:
1)其他条件相同时,选用较低的频率分量,有更好的效果。
2)选用其他频率分量(除最高频率分量外)时,它们的Top-1 accuracy比最低频率分量的只少了0.5%以内,说明其他频率分量在通道注意力机制中也同样有效。
5.2 选用不同数量的频率分量的结果
结果:
1)使用多个频率分量的比只使用一个的表现明显好得多。
2)对FcaNet-LF,选用两个频率分量最佳,对FcaNet-TS,选择16个频率分量最佳。