Learning in the Frequency Domain | 论文笔记

论文链接:[2002.12416] Learning in the Frequency Domain (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/abs/2002.12416

论文代码:kaix90/DCTNet (github.com)icon-default.png?t=N7T8https://github.com/kaix90/DCTNet

1、研究背景

a)在传统方法中,高分辨率的RGB图片通常在CPU上进行预处理,然后转移到GPU上进行推理。因为没有经过压缩的RGB图片很大,所以CPU和GPU之间的传输带宽(CB)要求很高。为减少计算代价和传输带宽,高分辨率的RGB图片被下采样至更小的图片,但是这通常导致信息丢失和更低的推理准确率。

b)在作者的方法中,高分辨率的RGB图片首先转换到YCbCr颜色空间,然后转换到频域,所有相同频率的分量被分到相同通道中,以上过程在CPU上完成。又因为特定的频率分量比其他分量对推理准确率有更大的作用,因此我们仅保留并传输最重要的通道去GPU。同时减小了传输带宽并达到了更高的推理准确率。

2、主要贡献

1)作者提出了一个将DCT系数作为输入的频域学习方法,只需要对现有的将RGB图片作为输入的CNN网络做很小的修改。

2)作者展现了相比在空域下采样的方法,在频域中的学习能够在预处理阶段更好的保存图片信息。

3)作者在频域的角度分析了spectral bias,并展现了CNN网络对低频通道更敏感(和人类视觉系统相似)。

4)作者提出了一个基于学习的动态通道选择方法,来去除不重要的频率分量。

5)这是第一个在目标检测和实例分割中运用频域进行学习的工作。

3、研究方法

3.1 在频域中的数据预处理

3.2 基于学习的频域通道选择

图片注释:Tensor 5的白色通道表示未被选择的通道。

1)输入Tensor 1,有C=192个频率通道。

2)Tensor 1通过平均池化得到Tensor 2,Tensor 2经过1*1的卷积层得到Tensor 3。

【从Tensor 1到Tensor 3的转换类似于SE-Block】

3)通过将Tensor 3中的每个元素分别乘以两个可训练的参数得到Tensor 4,Tensor 4中192个通道的两个数字被归一化,作为该通道被采样为0或1的可能性大小。例如Tensor 4中第i个通道的两个数字是7.5和2.5,那么有75%的可能性第i个通道会关闭,该通道经过Gumbel Softmax后被分配0。

【这里用Gumbel Softmax的方式使得离散的数据可导,允许梯度通过离散采样过程反向传播】

4)最后与输入频率通道Tensor 1相乘,得到Tensor 5。

5)在损失函数中增加了一个正则化项,以平衡所选频率通道的数目。

3.3 静态频域通道选择

 

 

图片注释:a)是图像分类任务,在ImageNet数据集上进行验证,b)是实例分割任务,在COCO数据集上进行验证。索引越小,代表频率越小;颜色越深,代表该通道被选择的可能性越大。

1)低频通道比高频通道被选择的可能性更大,说明在视觉推断任务中,低频通道提供的信息更多。

2)Y通道比Cb和Cr通道被选择的频率更多,说明在视觉推断任务中,Y通道提供的信息更多。

3)图像分类和实例分割任务的热图很像,说明上述两个观察也可能适用于其他任务。

4)有趣的是,有时候高频通道比低频通道被选择的可能性更大。

 4、实验结果

4.1 图像分类任务

Table 1: ResNet-50 classification results on ImageNet (validation)

DCT-24D表示基于动态选择的结果精确选择24个通道(14+9+9);DCT-24S和DCT-24T表示Y,Cb,Cr共24个频率通道,形状分别接近左上三角形和正方形。

1)可以看到以上三种方法的结果很接近,且均好于空域方法,说明只要能选中大多数的低频分量,推断结果就会较好。

2)当从RGB域转换到YCbCr域后,实验结果下降。

3)可以看到DCT-24S等结果比DCT-192(选中全部的频率分量)好,说明较小数量的低频通道已经足够捕捉到有用信息,其他的频率分量可能会带来噪声。

 Table 2: MobileNetV2 classification results on ImageNet (validation)

4.2 实例分割任务

虽然DCT-24S比RGB方法的输入数据量更小,但是效果却更佳。

 

  • 21
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值