兼容Ultralytics版YOLOv3、v5、v6、v8、v9、v10、v11、v12,(提供了v8、v10、v11、v12的模型demo)可加载双图片输入(一般为可见光+红外光),项目代码基于官方ultalytics实现。
可定制RGBD、三模态输入,如有其他输入需求也可私聊咨询。
项目提供的三种融合模型demo,仅供参考和对比试验,不能作为创新点使用,发论文请自己魔改
以下为本人自己论文部分对比实验,仅供参考,所用数据集为LLVIP,标红的三个即为本项目提供的模型demo:
可自己魔改网络,插注意力、换主干、激活函数、损失函数等均(与官方代码的更改方法一模一样),高度兼容。
------------------------------------------
代码有偿,需要请私信
项目包含:
YOLOv12多模态(兼容v3,v5,v6,v8,v9,v10,v11,v12,包含下面介绍的3种融合方式,本博文所有图片均来自该项目,所见即所得)
送:
1. 1000张 RGB+红外数 小据集,用于测试代码能否跑通
2. 3个开源 RGB+红外数据集(LLVIP、KAIST、M3FD),已全部对齐并制作为yolo格式,可直接训练
------------------------------------------
加米可选:
YOLO多模态UI界面实现
------------------------------------------
一、项目结构展示
1. 项目文件
已更新v12
2. 提供的三种融合方式demo
这里不展示详细的yaml文件
1、前端融合
2、中间融合
3、后端融合(双路)
前端融合与单模态原模型对比,下图仅展示了前端融合网络,中间和后端融合均已实现,但不作展示:
yolo11原模型(单输入,3通道)
yolo11双模态(前端融合)(双输入,3+3=6通道)
tips:红外为什么不是单通道,可以做单通道,但是训练可视化会产生一些问题,而且仅仅第一层多两个通道,参数量几乎是没有影响的,如果一定需要做单通道(RGB3+红外1),这边也可以定制。
三模态(三输入,3+3+3=9通道)
二、多模态数据集结构
三、训练结果展示
蓝色为双模态RGB+IR,红色为单模态RGB
四、多模态检测UI实现