在深度学习蓬勃发展的当下,卷积神经网络视觉基础模型正不断拓展着视觉处理领域的边界。这些模型如同精密的视觉感知引擎,深度挖掘图像、视频中的关键信息,在安防监控、自动驾驶、医疗影像分析等诸多领域发挥着不可替代的作用。
其中港大研究人员这篇入选CVPR 2025的高分论文,提出新型纯CNN架构OverLoCK借鉴人类视觉系统“先概览后细察”的运作模式,创新性地采用深度阶段分解策略(DDS)与上下文混合动态卷积(ContMix)。这一创新组合在图像分类、目标检测等任务中成绩斐然,性能连超传统CNN、Transformer与Mamba!实现了速度与精度的完美平衡。
还有研究将目光投向视觉骨干网络与优化器的交互关系,揭示出“骨干网络 - 优化器耦合偏差”现象,让我们看到不同网络架构与优化器间微妙且关键的依存关系,为后续模型设计与优化器选择照亮了新的方向。
我们精心整理了十几篇关于卷积神经网络视觉基础模型的前沿论文,涵盖从模型架构创新到应用优化等多个维度。若你对这一领域满怀探索热情,扫描下方的二维码免费领取哦,希望对大家的论文写作有所助力!
全部论文+开源代码需要的同学看文末!
【论文1】OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels
Performance comparisons between our OverLoCK and other representative backbone networks on vision tasks.
1.研究方法
The architecture of OverLoCK network.
该论文提出 OverLoCK 网络,基于人类视觉系统的 “先概览后细察” 机制,采用深度阶段分解策略(DDS)和上下文混合动态卷积(ContMix)。DDS 将网络分解为三个子网络,Base-Net 提取中低级信息,Overview-Net 生成语义上下文先验,Focus-Net 在上下文先验引导下细化特征;ContMix 通过计算亲和图生成动态卷积核,使网络能有效捕捉长距离依赖并保持局部归纳偏差。
2.论文创新点
Structures of network building blocks
-
模拟人类视觉机制:受人类视觉系统中自上而下注意力机制启发,提出DDS,在特征和内核权重层面为中间和深层网络提供动态上下文引导,增强特征表示和模型性能。
-
新型动态卷积设计:设计ContMix动态卷积,通过计算与区域中心的亲和力来生成动态卷积核,能在保持局部归纳偏差的同时有效建模长距离依赖关系,解决了传统卷积的局限性。
-
性能优势显著:OverLoCK在多个视觉任务(图像分类、目标检测、语义分割)上性能卓越,如OverLoCK-T在ImageNet-1K数据集上Top-1准确率达84.2%,且计算量和参数仅约为对比模型的三分之一 ,在速度和精度之间实现了良好平衡。
论文链接:https://arxiv.org/abs/2502.20087
【论文2】Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning
Vision backbones with representative macro and micro designs since 2012
1.研究方法
Overview of mainstream gradient-based optimizers
论文提出 OverLoCK 网络,基于人类视觉系统的 “先概览后细察” 机制,采用深度阶段分解策略(DDS)和上下文混合动态卷积(ContMix)。DDS 将网络分解为三个子网络,Base-Net 提取中低级信息,Overview-Net 生成语义上下文先验,Focus-Net 在上下文先验引导下细化特征;ContMix 通过计算亲和图生成动态卷积核,使网络能有效捕捉长距离依赖并保持局部归纳偏差。
2.论文创新点
Top-1 accuracy (%) of representative vision backbones with 20 popular optimizers on CIFAR-100
-
模拟人类视觉机制:受人类视觉系统中自上而下注意力机制启发,提出DDS,在特征和内核权重层面为中间和深层网络提供动态上下文引导,增强特征表示和模型性能。
-
新型动态卷积设计:设计ContMix动态卷积,通过计算与区域中心的亲和力来生成动态卷积核,能在保持局部归纳偏差的同时有效建模长距离依赖关系,解决了传统卷积的局限性。
-
性能优势显著:OverLoCK在多个视觉任务(图像分类、目标检测、语义分割)上性能卓越,如OverLoCK-T在ImageNet-1K数据集上Top-1准确率达84.2%,且计算量和参数仅约为对比模型的三分之一 ,在速度和精度之间实现了良好平衡。
论文链接:https://arxiv.org/abs/2410.06373
关注下方《AI前沿速递》🚀🚀🚀
回复“C219”获取全部方案+开源代码
码字不易,欢迎大家点赞评论收藏