一、本文介绍
本文记录的是基于AIFI模块的YOLOv8、YOLOv9、YOLOv10、YOLOv11目标检测改进方法研究。AIFI
是RT-DETR
中高效混合编码器的一部分,利用其改进模型,使网络在深层能够更好的捕捉到概念实体之间的联系,并有助于后续模块对对象进行定位和识别。
二、AIFI设计原理
RT-DETR
模型结构:
AIFI(Attention-based Intra-scale Feature Interaction)
模块的相关信息如下:
2.1、设计原理
AIFI
是RT-DETR
中高效混合编码器的一部分。为了克服多尺度Transformer编码器
中存在的计算瓶颈,RT-DETR
对编码器结构进行了重新思考。
由于从低级特征中提取出的高级特征包含了关于对象的丰富语义信息,对级联的多尺度特征进行特征交互是冗余的。因此,AIFI
基于此设计,通过使用单尺度Transformer
编码器仅在S5特征层
上进行尺度内交互,进一步降低了计算成本。
对高级特征应用自注意力操作,能够捕捉到概念实体之间的联系,这有助于后续模块对对象进行定位和识别。而低级特征由于缺乏语义概念,且与高级特征交互存在重复和混淆的风险,因此其尺度内交互是不必要的。
2.2、优势
与基准模型相比,AIFI不仅显著降低了延迟(快35%),而且提高了准确性(AP高0.4%)。
三、AIFI模块的实现代码
四、修改步骤
模块完整介绍、个人总结、实现代码、模块改进、yaml配置、以及详细添加步骤请参考对应链接:
YOLOv8:
详细步骤:YOLOv8改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互,在降低计算成本的同时提高模型的性能
改进合集:YOLOv8全方位改进目录一览
YOLOv9:
详细步骤:YOLOv9改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互,在降低计算成本的同时提高模型的性能
改进合集:YOLOv9全方位改进目录一览
YOLOv10:
详细步骤:YOLOv10改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互,在降低计算成本的同时提高模型的性能
改进合集:YOLOv10全方位改进目录一览
YOLOv11:
详细步骤:YOLOv11改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互,在降低计算成本的同时提高模型的性能
改进合集:YOLOv11全方位改进目录一览
RT-DETR:
改进合集:RT-DETR全方位改进目录一览