摘要
双动态令牌混合器(D-Mixer),一种输入依赖的方式聚合全局信息和局部细节。D-Mixer通过分别在均匀分割的特征片段上应用有效的全局注意力模块和输入依赖的深度卷积,使网络具有强大的归纳偏差和扩大的有效感受野。使用D-Mixer作为基本构建块设计了TransXNet,这是一种新型的混合CNN-Transformer视觉主干网络,可提供引人注目的性能。在ImageNet-1K图像分类任务中,TransXNet-T在计算成本不到Swin-T的一半的情况下,Top-1准确率提高了0.3%。此外,TransXNet-S和TransXNet-B表现出优秀的模型可扩展性,分别实现了83.8%和84.6%的Top-1准确率,同时计算成本合理。
该模型具有以下优点:
- 动态特征聚合权重:通过OSRA和IDConv,该模型考虑了全局和本地信息,实现了动态特征聚合,从而为模型提供了强大的表示学习能力。
- 输入依赖的深度卷积:为了注入诱导偏置并以动态输入依赖的方式执行本地特征聚合,该模型采用了输入依赖的深度卷积。这种方法有助于扩大模型的有效感受野。
- 双动态令牌混合器(D-Mixer):D-Mixer是该模型的基本构建块,它通过结合自注意力和卷积,为Transformer模型提供了强大的泛化能力。通过堆叠多个