YOLOv12多模态(可见光+红外光，基于Ultralytics官方代码实现，可魔改网络)

Dneccc

已于 2025-04-15 13:06:24 修改

阅读量1.5w

点赞数 47

文章标签： YOLO ai python

于 2024-01-26 16:31:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Dneccc/article/details/135868619

版权

本文介绍了一个基于YOLOv5-v10的多模态目标检测项目，支持RGB与红外双图片输入，可在官方ultalytics基础上进行多种自定义修改，如加入注意力机制、更换主干网络等。项目提供三种融合方式，并附赠1000张RGB+红外数据集。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

兼容Ultralytics版YOLOv3、v5、v6、v8、v9、v10、v11、v12，（提供了v8、v10、v11、v12的模型demo）可加载双图片输入（一般为可见光+红外光），项目代码基于官方ultalytics实现。

可定制RGBD、三模态输入，如有其他输入需求也可私聊咨询。

项目提供的三种融合模型demo，仅供参考和对比试验，不能作为创新点使用，发论文请自己魔改

以下为本人自己论文部分对比实验，仅供参考，所用数据集为LLVIP，标红的三个即为本项目提供的模型demo：

可自己魔改网络，插注意力、换主干、激活函数、损失函数等均（与官方代码的更改方法一模一样），高度兼容。

------------------------------------------

代码有偿，需要请私信

项目包含：

YOLOv12多模态（兼容v3,v5,v6,v8,v9,v10,v11,v12，包含下面介绍的3种融合方式，本博文所有图片均来自该项目，所见即所得）

送：

1. 1000张 RGB+红外数小据集，用于测试代码能否跑通

2. 3个开源 RGB+红外数据集（LLVIP、KAIST、M3FD），已全部对齐并制作为yolo格式，可直接训练

------------------------------------------

加米可选：

YOLO多模态UI界面实现

------------------------------------------

一、项目结构展示

1. 项目文件

已更新v12

2. 提供的三种融合方式demo

这里不展示详细的yaml文件

1、前端融合

2、中间融合

3、后端融合（双路）

前端融合与单模态原模型对比，下图仅展示了前端融合网络，中间和后端融合均已实现，但不作展示：

yolo11原模型（单输入，3通道）

yolo11双模态（前端融合）（双输入，3+3=6通道）

tips：红外为什么不是单通道，可以做单通道，但是训练可视化会产生一些问题，而且仅仅第一层多两个通道，参数量几乎是没有影响的，如果一定需要做单通道（RGB3+红外1），这边也可以定制。

三模态（三输入，3+3+3=9通道）

二、多模态数据集结构

三、训练结果展示

蓝色为双模态RGB+IR，红色为单模态RGB

四、多模态检测UI实现

评论 105

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Dneccc 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。