DCNv4:对视觉应用的动态和稀疏算子的重新思考

AI智韵

已于 2024-01-16 14:58:40 修改

阅读量1.3k

点赞数

分类专栏：高质量AI论文翻译文章标签：人工智能目标检测计算机视觉

于 2024-01-16 14:54:23 首次发布

不能复制，转发

本文链接：https://blog.csdn.net/m0_47867638/article/details/135615999

版权

高质量AI论文翻译专栏收录该内容

175 篇文章 24 订阅 ¥99.90 ¥299.90

订阅专栏

DCNv4是为视觉应用设计的动态和稀疏算子，解决了DCNv3的局限性，通过去除softmax归一化增强动态属性并优化内存访问，提高速度。实验表明，DCNv4前向速度提高3倍以上，适用于图像分类、实例分割和语义分割等任务，与基线相比速度提升显著，证明了其在各种视觉任务中的高效性和通用性。

摘要由CSDN通过智能技术生成

摘要

https://arxiv.org/pdf/2401.06197.pdf
我们介绍了可变形卷积v4（DCNv4），这是一种高效且有效的运算符，专为广泛的视觉应用而设计。DCNv4解决了其前身DCNv3的局限性，通过两个关键改进：1. 去除空间聚合中的softmax归一化，以增强其动态属性和表达力；2. 优化内存访问以最小化冗余操作以提高速度。这些改进导致与DCNv3相比，收敛速度显著加快，处理速度大幅提升，DCNv4的前向速度提高了三倍以上。DCNv4在各种任务中表现出色，包括图像分类、实例和语义分割，尤其是图像生成。当将其集成到诸如U-Net之类的潜在扩散模型中的生成模型中时，DCNv4超过了其基线，突显了其增强生成模型的潜力。在实践应用中，将DCNv3替换为DCNv4在InternImage模型中创建FlashInternImage，可实现高达80％的速度提升和性能改进而无需进一步修改。DCNv4在速度和效率方面的进步，以及其在各种视觉任务中稳健的性能表现，表明其作为未来视觉模型的基础构建块的潜力。