YOLO算法改进Backbone系列之:Dfformer

本文介绍了一种新型的token混合器DFFormer和CDFFFormer,它们通过动态滤波器提高图像识别模型的性能,尤其是在处理高分辨率图像时,表现出与卷积和MHSA相当的吞吐量和内存效率。研究还展示了如何在YOLOv5项目中集成这些模型作为Backbone。
摘要由CSDN通过智能技术生成

摘要:配备多头自注意(MHSA)的模型在计算机性能方面取得了显著的性能。它们的计算复杂性与输入特征图中的像素平方成正比,导致处理缓慢,特别是在处理高分辨率图像时。新型的token Mixer 被提出作为MHSA的替代品,以规避这个问题:基于FFT的token混合器,在全局操作中类似于MHSA,但计算复杂度较低。然而,尽管它具有吸引人的特性,但基于FFT的token混合器尚未仔细检查其与快速发展的MetaFormer架构的兼容性。在这里,我们提出了一种名为动态滤波器、DFFormer和CDFFFormer的新型token混合器,使用动态滤波器来弥合上述差距的图像识别模型。CDFFormer实现了85.0%的Top-1精度,接近卷积和MHSA的混合架构。其他广泛的实验和分析,包括对象检测和语义分割,表明它们与最先进的架构具有竞争力;在处理高分辨率图像识别时,它们的吞吐量和内存效率是卷积和MHSA,与ConvFormer没有太大区别,远远优于CAFormer。我们的结果表明,动态过滤器是应该认真考虑的token混合器选项之一。

论文构建了符合MetaFormer的DFFormer和CDFFormer,DFFormer和CDFFormer(DFFormer块和ConvFormer块的混合模型)主要由MetaFormer块组成
在这里插入图片描述
在这里插入图片描述

Dfformer模型变体配置信息如下表所示:
在这里插入图片描述

在YOLOv5项目中添加模型作为Backbone使用的教程:
(1)将YOLOv5项目的models/yolo.py修改parse_model函数以及BaseModel的_forward_once函数
在这里插入图片描述
在这里插入图片描述

(2)在models/backbone(新建)文件下新建Dfformer.py,添加如下的代码:
在这里插入图片描述

(3)在models/yolo.py导入模型并在parse_model函数中修改如下(先导入文件):
在这里插入图片描述

(4)在model下面新建配置文件:yolov5_dfformer.yaml
在这里插入图片描述

(5)运行验证:在models/yolo.py文件指定–cfg参数为新建的yolov5_dfformer.yaml
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值