RT-DETR改进策略：双动态令牌混合器（D-Mixer）的TransXNet，实现RT-DETR的有效涨点

AI智韵

已于 2023-12-16 17:33:39 修改

阅读量2.2k

点赞数 24

分类专栏： RT-DETR实战与改进手册文章标签：计算机视觉目标检测

于 2023-12-13 06:47:22 首次发布

不能复制，转发

本文链接：https://blog.csdn.net/m0_47867638/article/details/134962475

版权

RT-DETR实战与改进手册专栏收录该内容

18 篇文章 ¥79.90 ¥99.00

订阅专栏

研究提出了一种名为TransXNet的新型视觉主干网络，采用双动态令牌混合器（D-Mixer）以输入相关的方式融合全局和局部信息，增强了Transformer模型的泛化能力。D-Mixer通过结合自注意力和输入依赖的深度卷积，实现了动态特征聚合权重，扩大了有效感受野。TransXNet在ImageNet-1K图像分类任务中表现出优越性能，同时计算成本较低。此外，通过在RT-DETR的HGBlock模块中引入HybridTokenMixer进行改进，以及使用TransXNet主干网络替换原有主干，进一步提升了模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

双动态令牌混合器（D-Mixer），一种输入依赖的方式聚合全局信息和局部细节。D-Mixer通过分别在均匀分割的特征片段上应用有效的全局注意力模块和输入依赖的深度卷积，使网络具有强大的归纳偏差和扩大的有效感受野。使用D-Mixer作为基本构建块设计了TransXNet，这是一种新型的混合CNN-Transformer视觉主干网络，可提供引人注目的性能。在ImageNet-1K图像分类任务中，TransXNet-T在计算成本不到Swin-T的一半的情况下，Top-1准确率提高了0.3％。此外，TransXNet-S和TransXNet-B表现出优秀的模型可扩展性，分别实现了83.8％和84.6％的Top-1准确率，同时计算成本合理。

该模型具有以下优点：

动态特征聚合权重：通过OSRA和IDConv，该模型考虑了全局和本地信息，实现了动态特征聚合，从而为模型提供了强大的表示学习能力。
输入依赖的深度卷积：为了注入诱导偏置并以动态输入依赖的方式执行本地特征聚合，该模型采用了输入依赖的深度卷积。这种方法有助于扩大模型的有效感受野。
双动态令牌混合器（D-Mixer）：D-Mixer是该模型的基本构建块，它通过结合自注意力和卷积，为Transformer模型提供了强大的泛化能力。通过堆叠多个

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI智韵 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。