YOLO算法改进Backbone系列之：Dfformer-CSDN博客

本文链接：https://blog.csdn.net/sc1434404661/article/details/136855454

本文介绍了一种新型的token混合器DFFormer和CDFFFormer，它们通过动态滤波器提高图像识别模型的性能，尤其是在处理高分辨率图像时，表现出与卷积和MHSA相当的吞吐量和内存效率。研究还展示了如何在YOLOv5项目中集成这些模型作为Backbone。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：配备多头自注意（MHSA）的模型在计算机性能方面取得了显著的性能。它们的计算复杂性与输入特征图中的像素平方成正比，导致处理缓慢，特别是在处理高分辨率图像时。新型的token Mixer 被提出作为MHSA的替代品，以规避这个问题：基于FFT的token混合器，在全局操作中类似于MHSA，但计算复杂度较低。然而，尽管它具有吸引人的特性，但基于FFT的token混合器尚未仔细检查其与快速发展的MetaFormer架构的兼容性。在这里，我们提出了一种名为动态滤波器、DFFormer和CDFFFormer的新型token混合器，使用动态滤波器来弥合上述差距的图像识别模型。CDFFormer实现了85.0%的Top-1精度，接近卷积和MHSA的混合架构。其他广泛的实验和分析，包括对象检测和语义分割，表明它们与最先进的架构具有竞争力；在处理高分辨率图像识别时，它们的吞吐量和内存效率是卷积和MHSA，与ConvFormer没有太大区别，远远优于CAFormer。我们的结果表明，动态过滤器是应该认真考虑的token混合器选项之一。

论文构建了符合MetaFormer的DFFormer和CDFFormer，DFFormer和CDFFormer（DFFormer块和ConvFormer块的混合模型）主要由MetaFormer块组成
在这里插入图片描述