复活CNN！港大 CVPR 2025 高分论文，助力卷积神经网络效率暴涨还省显存！

前沿速递AI

已于 2025-04-02 11:35:59 修改

阅读量1k

点赞数 11

文章标签：论文合集 CNN 卷积神经网络 CVPR

于 2025-04-02 11:35:05 首次发布

本文链接：https://blog.csdn.net/Mikasa33/article/details/146939429

版权

在深度学习蓬勃发展的当下，卷积神经网络视觉基础模型正不断拓展着视觉处理领域的边界。这些模型如同精密的视觉感知引擎，深度挖掘图像、视频中的关键信息，在安防监控、自动驾驶、医疗影像分析等诸多领域发挥着不可替代的作用。

其中港大研究人员这篇入选CVPR 2025的高分论文，提出新型纯CNN架构OverLoCK借鉴人类视觉系统“先概览后细察”的运作模式，创新性地采用深度阶段分解策略（DDS）与上下文混合动态卷积（ContMix）。这一创新组合在图像分类、目标检测等任务中成绩斐然，性能连超传统CNN、Transformer与Mamba！实现了速度与精度的完美平衡。

还有研究将目光投向视觉骨干网络与优化器的交互关系，揭示出“骨干网络 - 优化器耦合偏差”现象，让我们看到不同网络架构与优化器间微妙且关键的依存关系，为后续模型设计与优化器选择照亮了新的方向。

我们精心整理了十几篇关于卷积神经网络视觉基础模型的前沿论文，涵盖从模型架构创新到应用优化等多个维度。若你对这一领域满怀探索热情，扫描下方的二维码免费领取哦，希望对大家的论文写作有所助力！

全部论文+开源代码需要的同学看文末！

【论文1】OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels

Performance comparisons between our OverLoCK and
other representative backbone networks on vision tasks.

Performance comparisons between our OverLoCK and other representative backbone networks on vision tasks.

1.研究方法

The architecture of OverLoCK network.

该论文提出 OverLoCK 网络，基于人类视觉系统的 “先概览后细察” 机制，采用深度阶段分解策略（DDS）和上下文混合动态卷积（ContMix）。DDS 将网络分解为三个子网络，Base-Net 提取中低级信息，Overview-Net 生成语义上下文先验，Focus-Net 在上下文先验引导下细化特征；ContMix 通过计算亲和图生成动态卷积核，使网络能有效捕捉长距离依赖并保持局部归纳偏差。

2.论文创新点

Structures of network building blocks

模拟人类视觉机制：受人类视觉系统中自上而下注意力机制启发，提出DDS，在特征和内核权重层面为中间和深层网络提供动态上下文引导，增强特征表示和模型性能。
新型动态卷积设计：设计ContMix动态卷积，通过计算与区域中心的亲和力来生成动态卷积核，能在保持局部归纳偏差的同时有效建模长距离依赖关系，解决了传统卷积的局限性。
性能优势显著：OverLoCK在多个视觉任务（图像分类、目标检测、语义分割）上性能卓越，如OverLoCK-T在ImageNet-1K数据集上Top-1准确率达84.2%，且计算量和参数仅约为对比模型的三分之一，在速度和精度之间实现了良好平衡。

论文链接：https://arxiv.org/abs/2502.20087

【论文2】Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning

Vision backbones with representative macro and micro designs since 2012

1.研究方法

Overview of mainstream gradient-based optimizers

论文提出 OverLoCK 网络，基于人类视觉系统的 “先概览后细察” 机制，采用深度阶段分解策略（DDS）和上下文混合动态卷积（ContMix）。DDS 将网络分解为三个子网络，Base-Net 提取中低级信息，Overview-Net 生成语义上下文先验，Focus-Net 在上下文先验引导下细化特征；ContMix 通过计算亲和图生成动态卷积核，使网络能有效捕捉长距离依赖并保持局部归纳偏差。

2.论文创新点

Top-1 accuracy (%) of representative vision backbones with 20 popular optimizers on
CIFAR-100

Top-1 accuracy (%) of representative vision backbones with 20 popular optimizers on CIFAR-100

模拟人类视觉机制：受人类视觉系统中自上而下注意力机制启发，提出DDS，在特征和内核权重层面为中间和深层网络提供动态上下文引导，增强特征表示和模型性能。
新型动态卷积设计：设计ContMix动态卷积，通过计算与区域中心的亲和力来生成动态卷积核，能在保持局部归纳偏差的同时有效建模长距离依赖关系，解决了传统卷积的局限性。
性能优势显著：OverLoCK在多个视觉任务（图像分类、目标检测、语义分割）上性能卓越，如OverLoCK-T在ImageNet-1K数据集上Top-1准确率达84.2%，且计算量和参数仅约为对比模型的三分之一，在速度和精度之间实现了良好平衡。

论文链接：https://arxiv.org/abs/2410.06373

关注下方《AI前沿速递》🚀🚀🚀
回复“C219”获取全部方案+开源代码
码字不易，欢迎大家点赞评论收藏