Learning in the Frequency Domain | 论文笔记

最新推荐文章于 2024-03-26 17:55:40 发布

Annkile

最新推荐文章于 2024-03-26 17:55:40 发布

阅读量1.1k

点赞数 22

分类专栏：论文笔记文章标签：论文阅读人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52648919/article/details/134907999

版权

论文笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文提出了一种在频域进行预处理和通道选择的图像处理方法，通过将RGB图片转换到YCbCr并利用DCT系数，减少传输带宽，同时保持较高的推理准确率。实验证明，这种方法在图像分类和实例分割任务中表现优于传统空域下采样策略。

摘要由CSDN通过智能技术生成

论文链接：[2002.12416] Learning in the Frequency Domain (arxiv.org)https://arxiv.org/abs/2002.12416

论文代码：kaix90/DCTNet (github.com)https://github.com/kaix90/DCTNet

1、研究背景

a）在传统方法中，高分辨率的RGB图片通常在CPU上进行预处理，然后转移到GPU上进行推理。因为没有经过压缩的RGB图片很大，所以CPU和GPU之间的传输带宽（CB）要求很高。为减少计算代价和传输带宽，高分辨率的RGB图片被下采样至更小的图片，但是这通常导致信息丢失和更低的推理准确率。

b）在作者的方法中，高分辨率的RGB图片首先转换到YCbCr颜色空间，然后转换到频域，所有相同频率的分量被分到相同通道中，以上过程在CPU上完成。又因为特定的频率分量比其他分量对推理准确率有更大的作用，因此我们仅保留并传输最重要的通道去GPU。同时减小了传输带宽并达到了更高的推理准确率。

2、主要贡献

1）作者提出了一个将DCT系数作为输入的频域学习方法，只需要对现有的将RGB图片作为输入的CNN网络做很小的修改。

2）作者展现了相比在空域下采样的方法，在频域中的学习能够在预处理阶段更好的保存图片信息。

3）作者在频域的角度分析了spectral bias，并展现了CNN网络对低频通道更敏感（和人类视觉系统相似）。

4）作者提出了一个基于学习的动态通道选择方法，来去除不重要的频率分量。

5）这是第一个在目标检测和实例分割中运用频域进行学习的工作。

3、研究方法

3.1 在频域中的数据预处理

3.2 基于学习的频域通道选择

图片注释：Tensor 5的白色通道表示未被选择的通道。

1）输入Tensor 1，有C=192个频率通道。

2）Tensor 1通过平均池化得到Tensor 2，Tensor 2经过1*1的卷积层得到Tensor 3。

【从Tensor 1到Tensor 3的转换类似于SE-Block】

3）通过将Tensor 3中的每个元素分别乘以两个可训练的参数得到Tensor 4，Tensor 4中192个通道的两个数字被归一化，作为该通道被采样为0或1的可能性大小。例如Tensor 4中第i个通道的两个数字是7.5和2.5，那么有75%的可能性第i个通道会关闭，该通道经过Gumbel Softmax后被分配0。

【这里用Gumbel Softmax的方式使得离散的数据可导，允许梯度通过离散采样过程反向传播】

4）最后与输入频率通道Tensor 1相乘，得到Tensor 5。

5）在损失函数中增加了一个正则化项，以平衡所选频率通道的数目。

3.3 静态频域通道选择

图片注释：a)是图像分类任务，在ImageNet数据集上进行验证，b)是实例分割任务，在COCO数据集上进行验证。索引越小，代表频率越小；颜色越深，代表该通道被选择的可能性越大。

1）低频通道比高频通道被选择的可能性更大，说明在视觉推断任务中，低频通道提供的信息更多。

2）Y通道比Cb和Cr通道被选择的频率更多，说明在视觉推断任务中，Y通道提供的信息更多。

3）图像分类和实例分割任务的热图很像，说明上述两个观察也可能适用于其他任务。

4）有趣的是，有时候高频通道比低频通道被选择的可能性更大。

4、实验结果

4.1 图像分类任务

Table 1: ResNet-50 classification results on ImageNet (validation)

DCT-24D表示基于动态选择的结果精确选择24个通道（14+9+9）；DCT-24S和DCT-24T表示Y,Cb,Cr共24个频率通道，形状分别接近左上三角形和正方形。

1）可以看到以上三种方法的结果很接近，且均好于空域方法，说明只要能选中大多数的低频分量，推断结果就会较好。

2）当从RGB域转换到YCbCr域后，实验结果下降。

3）可以看到DCT-24S等结果比DCT-192（选中全部的频率分量）好，说明较小数量的低频通道已经足够捕捉到有用信息，其他的频率分量可能会带来噪声。

Table 2: MobileNetV2 classification results on ImageNet (validation)

4.2 实例分割任务

虽然DCT-24S比RGB方法的输入数据量更小，但是效果却更佳。

关注

22
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
Learning in the Frequency Domain | 论文笔记

论文链接：[2002.12416] Learning in the Frequency Domain (arxiv.org)https://arxiv.org/abs/2002.12416论文代码：kaix90/DCTNet (github.com)https://github.com/kaix90/DCTNeta）在传统方法中，高分辨率的RGB图片通常在CPU上进行预处理，然后转移到GPU上进行推理。因为没有经过压缩的RGB图片很大，所以CPU和GPU之间的传输带宽（CB）要求很高。为减少计算代价和传输带
复制链接

扫一扫

专栏目录

Annkile CSDN认证博客专家 CSDN认证企业博客

码龄4年

25: 原创

133万+: 周排名

27万+: 总排名

1万+: 访问

: 等级

318: 积分

45: 粉丝

64: 获赞

1: 评论

83: 收藏

私信

关注

热门文章

分类专栏

最新评论

数据库设计步骤
CSDN-Ada助手: 恭喜您写了第20篇博客！标题为“数据库设计步骤”，非常有深度和实用价值。您的博客内容总是能够给读者带来新的知识和启发，真是令人敬佩。不过，如果您愿意，我有一个谦虚的建议，希望能对您的下一步创作有所帮助。在未来的博客中，您可以考虑分享一些实际案例或者通过图表等方式更直观地阐述数据库设计步骤。这样更多的读者可能会从中受益，并能更好地理解和应用您的知识。再次恭喜您的持续创作，期待您更多精彩的博客！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。