（CVPR2025）即插即用动态频域卷机FDConv，涨点起飞

最新推荐文章于 2025-04-10 13:00:32 发布

程序员笑武

最新推荐文章于 2025-04-10 13:00:32 发布

阅读量1.1k

点赞数 9

文章标签： embedding 知识图谱机器人人工智能深度学习

本文链接：https://blog.csdn.net/m0_59164304/article/details/146988081

版权

论文介绍

题目：Frequency Dynamic Convolution for Dense Image Prediction

论文地址：https://arxiv.org/pdf/2503.18783

创新点

1. 从频率角度创新地设计动态卷积：Frequency Dynamic Convolution (FDConv)

传统动态卷积（如DY-Conv、ODConv）虽然能为不同输入自适应地选择权重，但这些权重在频率响应上高度相似，造成了：

表征能力有限；
参数冗余大。

FDConv 提出从频率域出发，设计具有频率多样性的卷积核，解决上述问题，并且不增加参数量。

2. 三大模块协同，提升模型的适应性和表达力

✅ （1）Fourier Disjoint Weight (FDW)

在频率域中学习参数；
将参数划分为互不重叠的频率组（如低频、中频、高频）；
每个组生成一个具有独特频率响应的卷积核；
利用iDFT（逆傅里叶变换）将频率权重转换为空间域卷积核；
在固定参数预算下生成更多（n > 10）具有频率差异性的卷积核。

✅ （2）Kernel Spatial Modulation (KSM)

对每一个卷积核的元素做细粒度调节；
结合局部通道信息（1D卷积）**与**全局通道信息（全连接层）；
输出一个 dense modulation matrix，动态调整每个卷积权重的响应。

✅ （3）Frequency Band Modulation (FBM)

对权重进行频率分解（例如划分为4个频段）；
通过频率掩码分别处理不同频段；
对每一频段生成空间可变的调制图，使模型能根据空间位置自适应调整频率响应；
提高模型对图像复杂结构的建模能力（如边缘、纹理、背景）。

3. 更高的性能、更低的参数成本

相比于 CondConv（+90M）、ODConv（+65M）、KW（+76.5M）等方法，FDConv仅增加 +3.6M 参数；
实验表明其在目标检测、实例分割、语义分割、图像分类等任务上都超过现有SOTA方法；
易于集成进 ResNet、ConvNeXt、Swin Transformer 等主流架构。

方法

整体架构

FDConv 的整体结构由三个模块构成：Fourier Disjoint Weight（FDW）在频率域中将固定参数预算划分为多个互不重叠的频率组，通过 iDFT 生成具有不同频率响应的卷积核；Kernel Spatial Modulation（KSM）结合局部与全局通道信息，对每个卷积核权重进行精细调节；Frequency Band Modulation（FBM）将卷积核划分为多个频段，并根据空间位置自适应调整各频段的权重，从而实现空间可变的频率调制。三者协同，使模型在不显著增加参数的情况下，具备更强的频率表达能力。

✅ 1. Fourier Disjoint Weight（FDW）

目标： 在不增加参数预算的前提下，生成多个频率多样性的卷积核。

FDW 是整个结构的「基础」，实现频率多样化的卷积核生成。

✅ 2. Kernel Spatial Modulation（KSM）

目标： 对 FDW 生成的卷积核进行更细粒度的调节，增强表达力。

KSM 是「微调层」，使卷积核在空间维度上具有更灵活的调节能力。

✅ 3. Frequency Band Modulation（FBM）

目标： 让频率响应具有空间适应性，增强模型对图像细节与结构的建模。

FBM 是「区域调节器」，让不同区域根据内容强化或抑制不同频率信息。
- 将卷积核在频率域中分解为多个频段（如低、中、高频）；
- 对每一频段生成一个空间可变的调制图（mask），控制每段在每个位置的影响力；
- 最终输出是各频段响应的加权和。
- 局部通道分支（1D卷积）：提取每个通道的局部上下文；
- 全局通道分支（FC层）：建模全局语义；
- 包含两个分支：
- 两者输出的调制值融合成一个 dense modulation matrix（尺寸为 k×k×Cin×Cout）；
- 用于对每个卷积核权重元素进行乘法调节（类似注意力机制）。
- 在频率域中学习参数；
- 将参数划分为多个互不重叠的频率组；
- 每个组经过 iDFT（逆傅里叶变换） 生成一个卷积核；
- 这些卷积核具有互补的频率响应；
- 最后通过加权平均（attention）组合为最终权重。

即插即用模块作用

✅ 一、主要适用场景

1️⃣密集预测任务（Dense Prediction）

如：

语义分割
实例分割
边缘检测
深度估计

📌 原因：这些任务对图像中的细节、边界、结构非常敏感，FDConv 的频率调制能力可以更好地识别和分离不同区域的特征。

2️⃣ 目标检测

如：

Faster R-CNN
Mask R-CNN
YOLO 等检测框架的骨干网络替换

📌 原因：目标边界通常蕴含高频信息，FDConv 可以在保持计算效率的前提下，增强关键区域的特征表达。

3️⃣ 图像分类（特别是复杂背景或多尺度场景）

📌 FDConv 可以帮助模型抑制无效区域的高频噪声，同时增强有判别力的频段，有助于提升分类准确性。

4️⃣ 与主流架构结合使用

✅ 可集成进 CNN，如 ResNet、ConvNeXt
✅ 也可用于 Transformer 中，如 Swin Transformer（替代 1×1 线性层）

📌 原因：FDConv 是标准卷积的增强版，可以作为通用模块替换任意卷积层或线性层，具有很强的结构兼容性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述