YOLO 系列代码及论文汇总(持续更新)
通过网盘分享的文件:主系列yolov1-v12
百度网盘
YOLO11
https://github.com/ultralytics/ultralytics
YOLO12
https://www.arxiv.org/pdf/2502.12524
代码链接:https://github.com/sunsmarterjie/yolov12
其他改进深度之眼整理思路&代表论文
引入注意力机制:
TD-YOLO: Taylor-Attention based Dehazing for Enhanced YOLO Detection PerformanceACM 24
论文代码
BGF-YOL0: Enhanced YOLOv8 with Multiscale Attentional Feature Fusion for Brain TumorDetection
MICCAI'24
论文
代码
YOLO-CCA:A Context-Based Approach for Traffic Sign Detection
模型轻量化
YOLO-Granada:a lightweight attentioned Yolo for pomegranates fruit detection https://www.nature.com/articles/s41598-024-67526-4.pdfhttps://www.nature.com/articles/s41598-024-67526-4.pdf
LUD-YOLO:A novel lightweight object detection network for unmanned aerial vehicle
一区
Reducing the Side-Effects of Oscillations in Training of Quantized YOLONetworks https://openaccess.thecvf.com/content/WACV2024/papers/Gupta_Reducing_the_Side-
Effects_of_Oscillations_in_Training_of_Quantized_YOLO_WACV_2024_paper.pdf
与其他新技术结合
Mamba YOLO:SSMs-Based YOLO For Object Detection https://github.com/HZAI-ZJNU/Mamba-YOLOhttps://github.com/HZAI-ZJNU/Mamba-YOLO
https://arxiv.org/pdf/2406.05835https://arxiv.org/pdf/2406.05835
Mamba-YOLO-World:Marrying YOLO-World withMamba for Open-Vocabulary Detection
https://arxiv.org/pdf/2409.08513https://arxiv.org/pdf/2409.08513
https://github.com/Xuan-World/Mamba-YOLO-Worldhttps://github.com/Xuan-World/Mamba-YOLO-World
FER-YOLO-Mamba:Facial Expression Detection and Classification Based on Selective State Space
https://github.com/SwjtuMa/FER-YOLO-Mambahttps://github.com/SwjtuMa/FER-YOLO-Mamba https://arxiv.org/pdf/2405.01828
https://arxiv.org/pdf/2405.01828
SOAR:Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients
https://github.com/yash2629/s.o.a.rhttps://github.com/yash2629/s.o.a.r https://arxiv.org/pdf/2405.01699
https://arxiv.org/pdf/2405.01699
本文提出了一种名为YOLO-Mamba 的红外航空图像目标检测方法,旨在解决红外图像 中的目标检测问题,特别是在图像模糊和噪声方面。该方法结合了Mamba模型和注意力机制,提 出了一个新的基于Mamba的注意力模块 (Mamba Block Attention Module,MBAM), 用于改善算 法对图像关键区域的关注能力,并减少冗余信息的影响。
Fusion-Mamba for Cross-modality Object Detection
https://arxiv.org/pdf/2404.09146https://arxiv.org/pdf/2404.09146
本文提出了一种名为Fusion-Mamba 的跨模态目标检测方法,用于改善无人机(UAV)航 空图像中目标尺寸过小且特征信息有限的问题。该方法通过在隐藏状态空间中关联跨模态特征,利 用改进的Mamba模型和门控机制来减少跨模态特征之间的差异,并增强融合特征的表示一致性。
Fusion-Mamba 方法的核心在于设计的Fusion-Mamba 块 (FMB), 它包含两个模块: State Space Channel Swapping(SSCS)模块用于浅层特征融合,Dual State Space Fusion(DSSF) 模块则在隐藏状态空间中实现深层融合。
在LLVIP数据集上,Fusion-Mamba方法基于YOLOv5和YOLOv8的backbone分别取得了96.8%和 97.0%的mAP50
DMM:Disparity-guided Multispectral Mamba for Oriented Object Detection in
Remote Sensing
https://arxiv.org/pdf/2407.08132https://arxiv.org/pdf/2407.08132 GitHub - Another-0/DMMContribute to Another-0/DMM development by creating an account on GitHub.
https://github.com/Another-0/DMM
本文提出了一种名为DMM(Disparity-guided Multispectral Mamba)的多光谱定向目 标检测框架,用于遥感领域。该框架包括一个基于Mamba 的交叉模态融合模块 (DCFM), 一个多 尺度目标感知注意力模块 (MTA), 以及一个目标先验感知 (TPA) 辅助任务。DCFM模块利用RGB 和IR图像之间的视差信息来适应性地融合特征,减少模态间冲突。 MTA 模块旨在通过聚焦RGB 模态 内的相关目标区域来增强特征表示,解决模态内变化。 TPA 辅助任务利用单模态标签引导MTA 模块 的优化,确保其聚焦于目标及其局部上下文。在DroneVehicle和VEDAI 数据集上的实 验表明,该方法在保持计算效率的同时,超越了现有的最先进方法。
Integer-Valued Training and Spike-Driven Inference Spiking Neural Network for High-performance and Energy-efficient Object Detection
ECCV24 满分论文
https://arxiv.org/pdf/2407.20708https://arxiv.org/pdf/2407.20708
https://github.com/BICLab/SpikeYOLOhttps://github.com/BICLab/SpikeYOLO
这篇论文提出了一个名为SpikeYOLO 的脑启发式尖峰神经网络 (SNN) 架构,旨在缩 小SNN 和人工神经网络 (ANN) 在目标检测任务上的性能差距。 SpikeYOLO 通过简化YOLO 系列的 复杂模块设计,并结合元SNN 块来构建模型。此外,论文还提出了一种新的尖峰神经元——整数泄 漏积分发放 (I-LIF), 它在训练时激活整数值,而在推理时通过扩展虚拟时间步来保 持尖峰驱动,从而减少量化误差。在静态COCO 数据集上,SpikeYOLO 达到了66.2%的mAP@50 和 48 .9%的mAP@50:95, 分别比之前的SNN最高水平提高了15.0%和18.7%。在神经形态Gen1数据 集上,SpikeYOLO实现了67.2%的mAP@50, 比具有相同架构的ANN模型高出2.5%,并且能效提高 了5.7倍。
损失函数优化
改进损失函数:
将IOU Loss替换为其他更高效的损失函数,如GIoU Loss、DIoU Loss等,可以减 少预测框与真实框之间的误差
YOLO Phantom是一个为资源受限环境设计的轻量级目标检测模型,它通过结合迁移 学习和新颖的Phantom Convolution块,在保持高准确性的同时显著提高了检测速度。与YOLOv8n
等其他模型相比,YOLO Phantom在RGB和热成像检测的FPS上分别实现了17%和14%的提升,并 且在跨模态性能测试中展现了卓越的性能,这表明了其在多模态目标检测任务中的有 效性和优越性。
多模态融合: (数据处理+模型架构优化)
结合语音、文本等其他模态信息,采用多模态学习方法进行手势识别,以更全 面地捕捉人类的情感和意图。
SuperYOLO:Super Resolution Assisted Object Detection in Multimodal Remote
Sensing Imagery
https://arxiv.org/pdf/2209.13351https://arxiv.org/pdf/2209.13351