RT-DETR改进策略：UniRepLKNet，大核卷积的最新成果，轻量高效的首选（全网首发）

AI智韵

已于 2023-12-12 18:00:37 修改

阅读量1.7k

点赞数 18

分类专栏： RT-DETR实战与改进手册文章标签：计算机视觉目标检测深度学习

于 2023-12-09 18:27:43 首次发布

不能复制，转发

本文链接：https://blog.csdn.net/m0_47867638/article/details/134898682

版权

RT-DETR实战与改进手册专栏收录该内容

16 篇文章 3 订阅 ¥79.90 ¥99.00

订阅专栏

本文介绍了 UniRepLKNet，这是一种利用大内核卷积的新架构，旨在提高图像识别、音频、视频、点云和时间序列任务的性能。通过四个架构指南，包括使用高效结构增加深度、重新参数化大内核、根据任务选择内核大小和在增加深度时使用小内核， UniRepLKNet在ImageNet、COCO目标检测和ADE20K语义分割上实现了领先性能。此外，通过将UniRepLKNet应用于RT-DERT，显著提升了模型的准确性和运算效率。在音频和时间序列预测任务上，通用的UniRepLKNet模型甚至超过了专门设计的最新模型，展示了大内核ConvNets在跨模态任务中的潜力。

摘要由CSDN通过智能技术生成

摘要

将UniRepLKNet应用到RT-DERT的改进中，经过测试，涨点明显，运算量也有下降！

论文：《UniRepLKNet：用于音频、视频、点云、时间序列和图像识别的通用感知大内核ConvNet》

https://arxiv.org/abs/2311.15599
大核卷积神经网络(ConvNets)最近受到了广泛的研究关注，但存在两个未解决的关键问题需要进一步研究。(1)现有大核ConvNets的架构在很大程度上遵循传统ConvNets或Transformers的设计原则，而大核ConvNets的架构设计仍未得到充分解决。(2)随着Transformer 在多种模式下的主导地位，尚待研究的是，ConvNets是否在视觉以外的领域也具有强大的通用感知能力。本文从两个方面进行了贡献。(1)我们提出了设计大核ConvNets的四个架构指导方针，其核心是利用大核和小核的本质特征-大核可以看到宽广的范围而无需深入。遵循这些指导方针，我们提出的大核ConvNet在图像识别方面表现出领先性能。例如，我们的模型在ImageNet上达到88.0%的准确率，ADE20K mIoU为55.6%，COCO box AP为56.4%，表现出比最近提出的一些强大的竞争对手更好的性能和更高的速度。(2)我们发现大核是解锁ConvNets在它们最初不擅长的领域的卓越性能的关键。采用某些与模态相关的预处理方法&#x

了解本专栏