DCNv4,高效可变形卷积

github:https://github.com/OpenGVLab/DCNv4

主要解决的问题是提升基于卷积神经网络(ConvNets)的可变形卷积运算(Deformable Convolution,DCN)在计算机视觉应用中的效率和性能。文章指出尽管Deformable Convolution v3 (DCNv3) 结合了稀疏注意力机制与卷积操作,在处理具有局部性、动态采样点以及输入依赖权重的空间特征聚合方面表现出色,但其运行速度较慢且在训练初期收敛速度不如全局注意力机制,这限制了其在视觉主干模型中的广泛应用。

创新点在于提出了Deformable Convolution v4 (DCNv4),它对DCNv3进行了如下改进:

  1. 内存访问优化:通过深入分析现有实现发现DCNv3中大量内存访问冗余,作者针对此进行优化,大幅减少了不必要的内存访问,从而显著提升了DCNv4的运行速度。

  2. 去除softmax归一化:受到卷积层不受值域约束启发,DCNv4移除了空间聚合时的softmax归一化步骤,因为对于每个位置拥有独立采样窗口的操作来说,softmax的0到1范围限制了表达能力。这一改变增强了DCNv4的动态特性并提高了性能表现。

结果表明,DCNv4不仅在收敛速度上远超DCNv3,而且前向传播速度也提高了超过三倍,使得该操作符成为最快速的核心视觉运算符之一。将DCNv4应用于InternImage模型创建出FlashInternImage后,其速度比原版提升了50%至80%,同时保持了优越的表现力。此外,DCNv4还成功地整合到了包括ConvNeXt、ViT在内的多种现代主干网络结构中,并在图像生成任务中展现出超越基线模型的能力,显示了其作为通用视觉运算符的巨大潜力。

  • 9
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CV缝合怪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值