【论文解读】FDConv|Frequency Dynamic Convolution for Dense Image Prediction-CSDN博客

本文链接：https://blog.csdn.net/m0_51665349/article/details/148484310

论文地址：http://arxiv.org/pdf/2503.18783v2
代码地址：https://github.com/Linwei-Chen/FDConv

摘要

本研究介绍了一种新的频率动态卷积（FDConv），旨在通过在傅里叶域中学习固定参数预算来缓解这些限制。FDConv将此预算划分为具有不相交傅里叶指数的基于频率的组，从而能够在不增加参数成本的情况下构建频率多样化的权重。为了进一步增强适应性，本研究提出了核空间调制（KSM）和频带调制（FBM）。KSM在空间层面上动态调整每个滤波器的频率响应，而FBM将权重分解为频域中不同的频带，并根据局部内容动态调制它们。在对象检测、分割和分类方面的大量实验验证了FDConv的有效性。实验表明，当应用于ResNet-50时，FDConv仅以**+3.6M参数的适度增加实现了卓越的性能，优于先前需要大量增加参数预算的方法（例如，CondConv +90M，KW +76.5M）。此外，FDConv可以无缝集成到各种架构中，包括ConvNeXt、Swin-Transformer，为现代视觉任务提供了一种灵活高效**的解决方案。

引言

卷积神经网络（ConvNets）中的核心操作——卷积，在计算机视觉领域的发展中起到了至关重要的推动作用。**动态卷积（DY-Conv）**作为标准卷积的改进，提供了一种更具适应性和效率的方法。与使用固定权重的标准卷积不同，动态卷积利用多个并行权重，并通过注意力机制进行组合，从而以最小的额外计算成本实现样本特异性的权重调整。

然而，本研究通过分析发现，传统的动态卷积在并行权重中缺乏频率响应多样性。这些权重表现出高度相似的频率响应，导致模型在适应性捕获频率信息方面的能力受限。例如，提取低频分量有助于抑制噪声，而高频分量则能捕捉细节和边界，这对于区分前景和背景至关重要。

为了解决这些局限性，本研究提出了频率动态卷积（FDConv），旨在增强频率适应性，同时避免过度的参数开销。该方法基于三个核心模块：傅里叶不相交权重（Fourier Disjoint Weight, FDW）、核空间调制（Kernel Spatial Modulation, KSM）和频率带调制（Frequency Band Modulation, FBM）。

与传统的在空间域学习权重的方法不同，傅里叶不相交权重通过在傅里叶域中学习频谱系数来构建核权重。这些系数被分成基于频率的组，每个组具有不相交的傅里叶指数。然后，对这些组应用逆离散傅里叶变换（iDFT），将其转换为空间权重。这种不相交的分组使得每个权重都表现出不同的频率响应，从而确保了学习到的权重之间的高度多样性。

核空间调制通过在核内的空间层面上精确调整每个滤波器的频率响应，从而增强了灵活性。通过结合局部和全局通道信息，核空间调制生成一个密集的调制值矩阵，从而精细地调整每个单独的权重元素。这种细粒度的控制使频率动态卷积能够动态地调整每个滤波器元素，从而实现整个核的频率响应调整。

频率带调制将权重分解为频域中不同的频带，从而实现空间变异的频率调制。它允许独立地调整权重在不同空间位置上的每个频带。通过这种设计，模型可以选择性地强调或抑制不同区域的频带，从而自适应地捕获空间变异方式中的各种频率信息。

与以往增加n倍参数成本的方法不同（n是权重的数量，通常n < 10），本研究提出的频率动态卷积保持了固定的参数预算，同时通过将傅里叶域中的参数分成不相交的基于频率的组，生成大量频率不同的权重核（n > 10）。这种设计使得模型能够高效地学习具有不同频率响应的权重，而不会增加参数成本。

论文创新点

本研究提出了一种新的频率动态卷积（FDConv），旨在提高动态卷积在密集图像预测任务中的性能，同时避免传统方法中参数量大幅增加的问题。本研究的核心创新点在于通过在频率域中学习权重，实现对频率信息的更有效利用和更强的适应性。

💡 傅里叶不相交权重（FDW）模块的提出： 💡
- 本研究发现现有动态卷积方法在并行权重中存在频率响应多样性不足的问题，导致参数冗余和适应性受限。
- 为解决此问题，本研究提出了傅里叶不相交权重（FDW）模块。FDW 不像传统方法那样在空间域学习权重，而是在傅里叶域学习频谱系数，并将这些系数划分为具有不相交傅里叶索引的频率组。
- 通过逆离散傅里叶变换（iDFT）将这些组转换回空间权重，从而确保每个权重具有不同的频率响应，增加了权重之间的多样性，同时保持了固定的参数预算。
⚙️ 核空间调制（KSM）模块的引入： ⚙️
- 为了进一步增强模型的适应性，本研究引入了核空间调制（KSM）模块。
- KSM 通过结合局部和全局通道信息，生成一个密集的调制矩阵，从而在空间层面上精确调整每个滤波器的频率响应。
- 这种精细的控制使得 FDConv 能够动态地调整每个滤波器元素，实现整个核的频率响应调整，从而提升了模型对图像局部信息的敏感性。
🎵 频率带调制（FBM）模块的设计： 🎵
- 本研究提出了频率带调制（FBM）模块，该模块将权重分解为频率域中的不同频带，并根据局部内容动态地调制它们。
- 与传统动态卷积在空间维度上应用固定频率响应不同，FBM 允许模型选择性地强调或抑制不同区域的频率带，从而自适应地捕捉空间变化的多样化频率信息。
- 这种设计使得模型能够更好地处理图像中不同区域的复杂结构，提高了特征提取的质量。
🏆 实验验证与性能提升： 🏆
- 本研究通过大量的实验验证了 FDConv 的有效性。
- 实验结果表明，FDConv 能够轻松集成到现有的卷积神经网络和视觉 Transformer 中，并且在对象检测、实例分割和语义分割等任务上均取得了优于现有技术的性能。
- 更重要的是，FDConv 在实现性能提升的同时，仅需适度的参数增加，显著优于那些需要大量增加参数预算的方法。

【论文解读】FDConv|Frequency Dynamic Convolution for Dense Image Prediction

摘要

引言

论文创新点

论文实验