复活CNN!港大 CVPR 2025 高分论文,助力卷积神经网络效率暴涨还省显存!

在深度学习蓬勃发展的当下,卷积神经网络视觉基础模型正不断拓展着视觉处理领域的边界。这些模型如同精密的视觉感知引擎,深度挖掘图像、视频中的关键信息,在安防监控、自动驾驶、医疗影像分析等诸多领域发挥着不可替代的作用。

其中港大研究人员这篇入选CVPR 2025的高分论文,提出新型纯CNN架构OverLoCK借鉴人类视觉系统“先概览后细察”的运作模式,创新性地采用深度阶段分解策略(DDS)与上下文混合动态卷积(ContMix)。这一创新组合在图像分类、目标检测等任务中成绩斐然,性能连超传统CNN、Transformer与Mamba!实现了速度与精度的完美平衡。

还有研究将目光投向视觉骨干网络与优化器的交互关系,揭示出“骨干网络 - 优化器耦合偏差”现象,让我们看到不同网络架构与优化器间微妙且关键的依存关系,为后续模型设计与优化器选择照亮了新的方向。

我们精心整理了十几篇关于卷积神经网络视觉基础模型的前沿论文,涵盖从模型架构创新到应用优化等多个维度。若你对这一领域满怀探索热情,扫描下方的二维码免费领取哦,希望对大家的论文写作有所助力!

全部论文+开源代码需要的同学看文末!

【论文1】OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels

Performance comparisons between our OverLoCK and
other representative backbone networks on vision tasks.

Performance comparisons between our OverLoCK and other representative backbone networks on vision tasks.

1.研究方法

 The architecture of OverLoCK network.

The architecture of OverLoCK network.

该论文提出 OverLoCK 网络,基于人类视觉系统的 “先概览后细察” 机制,采用深度阶段分解策略(DDS)和上下文混合动态卷积(ContMix)。DDS 将网络分解为三个子网络,Base-Net 提取中低级信息,Overview-Net 生成语义上下文先验,Focus-Net 在上下文先验引导下细化特征;ContMix 通过计算亲和图生成动态卷积核,使网络能有效捕捉长距离依赖并保持局部归纳偏差。

2.论文创新点

Structures of network building blocks

Structures of network building blocks

  1. 模拟人类视觉机制:受人类视觉系统中自上而下注意力机制启发,提出DDS,在特征和内核权重层面为中间和深层网络提供动态上下文引导,增强特征表示和模型性能。

  2. 新型动态卷积设计:设计ContMix动态卷积,通过计算与区域中心的亲和力来生成动态卷积核,能在保持局部归纳偏差的同时有效建模长距离依赖关系,解决了传统卷积的局限性。

  3. 性能优势显著:OverLoCK在多个视觉任务(图像分类、目标检测、语义分割)上性能卓越,如OverLoCK-T在ImageNet-1K数据集上Top-1准确率达84.2%,且计算量和参数仅约为对比模型的三分之一 ,在速度和精度之间实现了良好平衡。

论文链接:https://arxiv.org/abs/2502.20087

【论文2】Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning

Vision backbones with representative macro and micro designs since 2012

Vision backbones with representative macro and micro designs since 2012

1.研究方法

Overview of mainstream gradient-based optimizers

Overview of mainstream gradient-based optimizers

论文提出 OverLoCK 网络,基于人类视觉系统的 “先概览后细察” 机制,采用深度阶段分解策略(DDS)和上下文混合动态卷积(ContMix)。DDS 将网络分解为三个子网络,Base-Net 提取中低级信息,Overview-Net 生成语义上下文先验,Focus-Net 在上下文先验引导下细化特征;ContMix 通过计算亲和图生成动态卷积核,使网络能有效捕捉长距离依赖并保持局部归纳偏差。

2.论文创新点

Top-1 accuracy (%) of representative vision backbones with 20 popular optimizers on
CIFAR-100

Top-1 accuracy (%) of representative vision backbones with 20 popular optimizers on CIFAR-100

  1. 模拟人类视觉机制:受人类视觉系统中自上而下注意力机制启发,提出DDS,在特征和内核权重层面为中间和深层网络提供动态上下文引导,增强特征表示和模型性能。

  2. 新型动态卷积设计:设计ContMix动态卷积,通过计算与区域中心的亲和力来生成动态卷积核,能在保持局部归纳偏差的同时有效建模长距离依赖关系,解决了传统卷积的局限性。

  3. 性能优势显著:OverLoCK在多个视觉任务(图像分类、目标检测、语义分割)上性能卓越,如OverLoCK-T在ImageNet-1K数据集上Top-1准确率达84.2%,且计算量和参数仅约为对比模型的三分之一 ,在速度和精度之间实现了良好平衡。

论文链接:https://arxiv.org/abs/2410.06373

关注下方《AI前沿速递》🚀🚀🚀
回复“C219”获取全部方案+开源代码
码字不易,欢迎大家点赞评论收藏

这个错误通常是由于尝试将一个非标量的数组转换为标量索引引起的。请检查你的代码,确认是否有一个数组被错误地用作索引,或者索引的类型不正确。你可以尝试使用整数索引来访问数组中的元素,或者使用其他适当的索引方式。如果你使用了数组作为索引,你可以尝试使用`np.ravel`或`np.flatten`函数将其展平为一维数组。 在你的代码中,`Month_Observation_Day==1`返回的是一个布尔数组,而`knockout_day`和`knockout_mday_overlock`都是数组。因此,当你尝试将布尔数组用作`knockout_day`的索引时,会出现上述错误。你可以使用`np.where`函数或者布尔索引来实现这个要求。下面是一个使用布尔索引的例子: ```python import numpy as np # 假设 knockout_day 和 Month_Observation_Day 都是一维数组 knockout_day = np.array([10, 20, 30, 40, 50]) Month_Observation_Day = np.array([1, 0, 1, 1, 0]) # 使用布尔索引生成新数组 knockout_mday_overlock knockout_mday_overlock = knockout_day[Month_Observation_Day == 1] print(knockout_mday_overlock) ``` 输出结果为: ``` [10 30 40] ``` 在上面的代码中,`knockout_day[Month_Observation_Day == 1]` 的意思是,使用布尔索引`Month_Observation_Day == 1`,生成一个布尔数组,表示对应位置上 Month_Observation_Day 中的值是否为 1。然后将布尔数组作为索引,从 knockout_day 数组中取出对应位置上的值,生成新的数组 knockout_mday_overlock。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值