（CVPR 2025）卷积网络复活，上下文动态混合卷积ContMIx，涨点起飞

程序猿李巡天

于 2025-04-01 19:08:32 发布

阅读量2.3k

点赞数 30

文章标签：网络人工智能机器学习算法开源学习

本文链接：https://blog.csdn.net/m0_59235945/article/details/146920466

版权

论文介绍

题目： OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels

论文地址：https://arxiv.org/pdf/2502.20087

创新点

1. 生物启发的分阶段结构设计（Deep-stage Decomposition Strategy, DDS）

模仿人类视觉的“先全览，再细看”机制（Overview-first, Look-closely-next），将网络拆解为三个协同子模块：
- Base-Net：提取低/中层局部特征；
- Overview-Net：轻量的“全局概览”网络，快速获取粗略语义上下文；
- Focus-Net：通过上层概览引导细致感知，提取精确高阶特征。
这种设计引入了显式的自顶向下注意机制，区别于传统自下而上的卷积金字塔结构。

2. 全新动态卷积模块：ContMix（Context-Mixing Dynamic Convolution）

目标是在保持卷积本身强局部归纳偏置（local inductive bias）的同时，引入类似Transformer的全局建模能力。
实现方式：
- 利用Overview-Net提供的上下文特征计算每个位置与区域中心的相似性（affinity map）；
- 将这些相似性通过线性层转换为动态卷积核，每个位置都有不同的卷积核权重，携带全局上下文；
- 在保持固定核大小前提下实现动态、上下文引导的长距离建模。

3. Context Flow机制

在Focus-Net中建立了一个动态更新的上下文流：
- 每个模块不仅使用初始的语义上下文进行引导，还会在前向传播过程中不断更新上下文；
- 提出了“加权残差更新”方式防止上下文信息被稀释。

4. 轻量高效的结构 + 强性能表现

尽管是纯ConvNet模型，OverLoCK在多个视觉任务（分类、检测、分割）中都超过了同量级Transformer/Mamba模型：
- 图像分类：在ImageNet-1K上，OverLoCK-T达到84.2%，超过ConvNeXt-B（83.8%）且参数量仅为其1/3；
- 目标检测：OverLoCK-S在COCO中提升MogaNet-B的APb指标1.2%；
- 语义分割：OverLoCK-T比UniRepLKNet-T提高1.7% mIoU。

5. 模块化设计易于拓展与组合

DDS框架与ContMix模块是通用、可插拔的，可以与现有ConvNet结构组合使用，具备良好的工程应用潜力。

方法

整体架构

OverLoCK 是一种受人类视觉启发的三分支纯卷积神经网络结构，整体遵循“先全览，再细看”的感知机制。模型由 Base-Net、Overview-Net 和 Focus-Net 组成：Base-Net 负责提取低中层特征；轻量的 Overview-Net 对特征进行快速全局建模，生成粗粒度的上下文先验（Context Prior）；Focus-Net 在上下文引导下使用动态卷积模块（ContMix）进行精细感知，捕捉关键目标信息。三者协同工作，实现了高效且准确的图像理解。

OverLoCK 模型，其整体结构是一个受人类视觉启发的 “先全览，再细看”（Overview-first, Look-closely-next） 的 三分支纯卷积神经网络结构。整体架构由以下三部分组成：

模型整体结构概览

1. Base-Net（基础网络）

功能：提取输入图像的低层和中层特征；
结构：由多个基本卷积模块（Basic Block）组成；
输出：中等分辨率的特征图（如 H/16 × W/16），作为后续两个分支的输入。

2. Overview-Net（概览网络）

功能：模拟人类视觉中“先看全局”的过程，快速捕捉粗略的语义上下文；
结构：轻量级网络，进一步下采样 Base-Net 的输出特征；
输出：粗粒度但全局性的语义特征图，称为 context prior（上下文先验）；
训练时使用辅助分类头进行监督，提升其语义质量。

3. Focus-Net（聚焦网络）

功能：模拟人类“仔细看局部”的过程，在上下文指导下精细感知目标细节；
结构：包含多个 Dynamic Block，以 OverView-Net 的输出作为动态上下文引导，融合 Base-Net 的中层特征；
特点：
- 引入上下文流（Context Flow），动态更新 context prior；
- 使用 ContMix（Context-Mixing Dynamic Convolution） 实现动态卷积权重生成；
- 同时保留长程建模能力与局部感知能力；
- 每个Block内部还有门控机制抑制上下文噪声。

主干网络

OverLoCK 架构作为一种纯卷积视觉主干网络（ConvNet backbone），其设计目标是兼顾高性能、强泛化能力与高效率，因此特别适用于以下几个场景和作用：

✅ 适用场景

1. 通用视觉任务中的高效主干网络

如图像分类、目标检测、语义分割、实例分割等任务；
适合替代传统的 ResNet、ConvNeXt、Swin Transformer 等视觉 backbone；
支持大规模数据训练（如 ImageNet、COCO、ADE20K 等）。

2. 对推理效率要求较高的部署场景

如移动端/边缘设备部署（因其是纯ConvNet结构，推理速度快，FLOPs较低）；
适合嵌入到实时视觉系统（如自动驾驶、视频分析、安防监控等）。

3. 需要兼顾全局理解与局部感知的复杂视觉场景

如遮挡严重的目标识别、细粒度分类、多目标密集场景检测等；
由于 OverLoCK 同时具备全局上下文建模和强局部归纳能力，因此更容易捕捉关键目标。

4. 在高分辨率图像处理中的优势更明显

ContMix 提供了比常规卷积更强的长距离建模能力；
实验证明 OverLoCK 在大图（如 384×384）下也能保持较高精度。

消融实验结果

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述