AI追随者-CSDN博客

原创 YOLOv13发布 | 超图高阶建模+轻量化模块，保证实时性的情况下，检测精度再创新高！

YOLO系列模型在实时目标检测领域占据主导地位，这得益于其卓越的准确性和计算效率。然而，YOLO11及早期版本中的卷积架构，以及YOLOv12中引入的区域性自注意力机制，均局限于局部信息聚合和成对相关性建模，缺乏捕捉全局多对多高阶相关性的能力，这限制了复杂场景下的检测性能。在本文中，作者提出了YOLOv13，一种准确且轻量级的目标检测器。

2025-06-25 23:29:32 1549

原创 UAVAI-YOLO：无人机航拍图像的小目标检测模型

针对无人机航拍图像目标检测效果差的问题，提出改进的UAVAI-YOLO模型。首先，为使模型获得更加丰富的语义信息，使用改进可变形卷积网络（deformable convolutional networks，DCN）替换原骨干（backbone）网络部分通道到像素（channel-to-pixel，C2f）模块原始卷积。其次，为增加P2特征层而不增加模型参数量，提出Conv_C模块将骨干网络输出通道降维，同时避免通道降维导致的语义信息丢失，使用改进ODConv卷积替换颈部（neck）部分C2f模块原始卷积。

2025-06-24 22:36:44 2784 2

原创 Gold-YOLO：基于聚合与分配机制的高效目标检测器

本研究提出了一种先进的Gather-and-Distribute机制，该机制通过卷积和自注意力操作实现。这种新设计的模型名为Gold-YOLO，它增强了多尺度特征融合能力，并且在所有模型尺度下，都能在延迟与精度之间实现理想的平衡。此外，我们首次在 YOLO 系列模型中采用了 MAE 风格的预训练，这使得 YOLO 系列模型能够从无监督预训练中获益。

2025-06-23 23:12:57 916

原创 YOLOv12 正式发布 | 检测效果超越YOLO11！！

提升YOLO框架的网络架构一直至关重要，尽管注意力机制在建模能力方面已被证明具有优越性，但长期以来一直专注于基于CNN的改进。这是因为基于注意力的模型无法与基于CNN的模型的速度相匹配。本文提出了一种以注意力为中心的YOLO框架，即YOLOv12，该框架在匹配先前基于CNN的模型速度的同时，利用了注意力机制的性能优势。YOLOv12在准确率上超越了所有流行的实时目标检测器，同时保持了有竞争力的速度。

2025-02-20 09:31:12 5971

原创 YOLOv5改进 | CARAFE提高精度的上采样方法

上采样操作可以表示为每个位置的上采样核和输入特征图中对应邻域的像素做点积，我们称之为特征重组。我们提出的上采样操作 CARAFE 在重组时可以有较大的感受野，会根据输入特征来指导重组过程，同时整个算子比较轻量级。具体来说，我们首先利用输入特征图来预测上采样核，每个位置的上采样核是不同的，然后基于预测的上采样核来进行特征重组。在不同的任务中，CARAFE 都取得了明显的提升，同时仅带来很小的额外参数和计算量。

2025-01-10 22:36:58 647

原创超越YOLO11！DEIM：先进的实时DETR目标检测

DEIM 通过 Dense O2O 和 MAL 两项改进，解决了 DETR 在监督信号和匹配质量上的不足，不仅显著加速了收敛速度，还在多个数据集上提升了性能，成为当前最优的实时目标检测方案。

2025-01-04 08:46:55 2956

原创 SL-YOLO: 更强、更轻的目标检测模型！！！

检测复杂场景中的小型目标，如无人机捕获的场景，是一项极具挑战性的任务，因为小型目标的复杂特征难以捕捉。尽管YOLO家族在大目标检测方面取得了巨大成功，但在面对小型目标时，其性能并不令人满意。因此，本文提出了一种革命性的模型SL-YOLO（更强大、更轻的YOLO），旨在突破小型目标检测的 Bottleneck。作者提出了一种先驱性的跨尺度特征融合方法，即分层扩展路径聚合网络（HEPAN），它可以在最具有挑战性的环境中确保无与伦比的检测精度。

2024-12-20 11:44:11 2260

原创 YOLO落地部署，一文尽览YOLO剪枝、量化进展

目标检测的主要目标是从给定图像中识别和定位不同类别的目标。目标检测是许多其他先进计算机视觉任务的基础，包括语义分割、目标跟踪、活动识别等。近年来，基于深度学习的方法，如卷积神经网络（CNNs），在目标检测任务中取得了最先进的性能。由于计算能力和先进算法的进步，目标检测变得更加准确，为各种现实世界的应用提供了可能。与传统的目标检测方法相比，使用CNNs可以缓解目标检测中特征提取、分类和定位的问题。通常，目标检测可以通过两种方法进行，即单阶段和两阶段检测。

2024-12-13 22:38:54 2662

原创深入浅出Batch Size，对模型训练的影响分析

训练神经网络以最小化以下形式的损失函数：theta 代表模型参数m 是训练数据样本的数量i 的每个值代表一个单一的训练数据样本J_i 表示应用于单个训练样本的损失函数通常，这是使用梯度下降来完成的，它计算损失函数相对于参数的梯度，并在该方向上迈出一步。随机梯度下降计算训练数据子集 B_k 上的梯度，而不是整个训练数据集。

2024-11-02 22:11:50 2437 1

原创超越YOLO11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

在 COCO 数据集上，D-FINE-L 和 D-FINE-X 分别以 8.07 ms (124 FPS) 和 12.89 ms (78 FPS) 的时延取得了 54.0% 和 55.8% 的 AP，远超其余所有实时目标检测器，打败了 YOLOv10 (53.2%，54.4%)、YOLO11 (53.4%，54.7%) 及 RT-DETRv2 (53.4%，54.6%)。特别是对于计算资源有限的小型团队，即使是精妙的训练策略，若缺乏大规模的超参数搜索，也难以取得预期的效果。

2024-10-31 22:18:52 1676

原创超越 YOLOv8，MAF-YOLO利用重参化异构卷积大幅度提升多尺度信息融合能力！

由于多尺度特征融合的有效性能，路径聚合FPN（PAFPN）被广泛应用于YOLO检测器中。然而，它不能同时高效且自适应地融合高级语义信息与低级空间信息。本文提出了一种名为MAF-YOLO的新模型，这是一个具有多功能 Neck 网络的新颖目标检测框架，名为多分支辅助FPN（MAFPN）。在MAFPN中，设计了表面辅助融合（SAF）模块，以将 Backbone 网络的输出与 Neck 网络相结合，保留适量的浅层信息以促进后续学习。

2024-10-30 22:58:46 4160 1

原创 YOLO11来啦 | 详细解读YOLO11的改进模块！

2024年可谓是YOLO历史性的一年，9月份的最后一天迎来了YOLO2024年的第三部巨作。2024年2月21日，继 2023 年 1 月 YOLOv8 正式发布一年多以后，YOLOv9 才终于到来了！YOLOv9提出了可编程梯度信息（Programmable Gradient Information，PGI）的概念，我们可以用它来获取完整的信息，从而使从头开始训练的模型能够比使用大型数据集预训练的 SOTA 模型获得更好的结果。

2024-10-19 23:42:59 15353 3

原创深度学习之回归

总结来说对于低阶函数来说，损失主要来自偏差，而高阶函数的损失主要来自偏差。低阶函数的拟合能力有限，因此带来的问题称为欠拟合（underfitting），而高阶函数由于过于地powerful，从而容易带来过拟合（overfitting）的问题：偏差vs方差应对大的偏差的方法：①增加更多特征作为输入②使用更复杂的模型应对大的方差的方法：①更多数据②正则化。

2024-10-14 23:18:47 1206

原创优化改进YOLOv5算法之Shift-ConvNets，具有大核效应的小卷积核，效果提升明显

最近的研究表明，Vision transformers (ViTs)的卓越性能得益于大的感受野。因此，大型卷积核设计成为使卷积神经网络(CNNs)再次变得出色的理想解决方案。然而，典型的大的卷积核被证明是对硬件不友好的操作，导致与各种硬件平台的兼容性降低。因此，简单地增大卷积核的大小是不明智的。在本文中，我们揭示了小型卷积核和卷积操作可以实现大型内核大小的封闭效果。然后，我们提出了一种shift-wise操作，该操作借助稀疏机制确保CNN捕获长距离依赖关系，同时保持对硬件的友好性。

2024-06-19 23:15:06 569

原创 YOLOv9来啦！YOLO目标检测全新工作！性能表现SOTA！在各个方面都大大超过了RT-DETR、YOLOv8等

今天的深度学习方法侧重于如何设计最合适的目标函数，使模型的预测结果最接近实际情况。同时，必须设计一种适当的架构，该架构可以促进获取足够的信息用于预测。现有的方法忽略了一个事实，即当输入数据经过逐层特征提取和空间变换时，会丢失大量信息。本文将深入研究数据通过深度网络传输时数据丢失的重要问题，即信息瓶颈和可逆函数。我们提出了可编程梯度信息（PGI）的概念，以应对深度网络实现多个目标所需的各种变化。PGI可以为目标任务提供完整的输入信息来计算目标函数，从而获得可靠的梯度信息来更新网络权重。

2024-02-22 13:56:22 19932 18

原创 ADA-YOLO：YOLOv8+注意力+Adaptive Head，mAP提升3%

生物医学图像分析中的目标检测和定位至关重要，尤其是在血液学领域，检测和识别血细胞对于诊断和治疗决策至关重要。虽然基于注意力的方法在各个领域中目标检测方面取得了显著的进展，但由于医学影像数据集的独特挑战，其在医学目标检测中的应用受到了限制。为了解决这个问题，作者提出了一种名为ADA-YOLO的轻量级但有效的医学目标检测方法，该方法将注意力机制与YOLOv8架构相结合。作者提出的这种方法通过自适应头模块利用动态特征定位和并行回归进行计算机视觉任务。

2024-01-16 23:00:21 2871 3

原创优化改进YOLOv5算法之Deformable Attention，有效提升检测效果，秒杀SE、CBAM和CA等注意力机制

对于 Attention 中的多个端口来说，首先将这些端口分为一定的组，比如 24 个端口 6 组，那么每组的 4 个端口将共享同一种位置偏差，使用的预测维度即分配给这 4 个端口的维度，不同组预测的位置偏差将不一样。最后还会加上一个相对位置插入，正常情况下这个位置矩阵大小为 �(2�−1)×(2�−1) ，但是考虑到存在处于任意位置的偏差，这个位置矩阵依然会做一个连续的差值 (Relative Displacements) 真尴尬我不知道这个英文我理没理解对......

2024-01-11 22:46:05 981

原创优化改进YOLOv5算法之Dilation-wise Residual(DWR)可扩张残差注意力模块，增强多尺度感受野特征，助力小目标检测

因此，在网络阶段4中，设置扩张率为1、3和5的扩张卷积的3个分支，而在阶段3中，放弃第三个分支以挤压感受野以避免有效计算。此外，由于卷积在更大的空间跨度上直接建立连接总是更困难，并且大跨度连接需要小跨度连接的帮助，因此在每个阶段，小的感受野总是很重要的。事实上，在第二步中，根据感受野的大小，可以在第一步中明智地学习所需的简明区域特征图，以反向匹配感受野。作者认为，确定合适的感受野大小对于提高特征提取的效率至关重要，并且在网络的不同阶段对感受野大小的要求是不同的。具体来说，所有特征图都是串联的。

2024-01-10 23:03:19 1589

原创优化改进YOLOv8算法之AKConv（可改变核卷积），即插即用的卷积，效果秒杀DSConv

基于卷积运算的神经网络在深度学习领域取得了令人瞩目的成果，但标准卷积运算存在两个固有的缺陷。一方面，卷积运算仅限于局部窗口，无法捕获其他位置的信息，并且它的采样形状是固定的。另一方面，卷积核的大小固定为k×k，是一个固定的正方形，参数的数量往往随大小呈平方增长。很明显，不同数据集和不同位置的目标的形状和大小是不同的。

2024-01-09 22:18:12 9853 19

原创优化改进YOLOv5算法之AKConv（可改变核卷积），即插即用的卷积，效果秒杀DSConv

基于卷积运算的神经网络在深度学习领域取得了令人瞩目的成果，但标准卷积运算存在两个固有的缺陷。一方面，卷积运算仅限于局部窗口，无法捕获其他位置的信息，并且它的采样形状是固定的。另一方面，卷积核的大小固定为k×k，是一个固定的正方形，参数的数量往往随大小呈平方增长。很明显，不同数据集和不同位置的目标的形状和大小是不同的。

2024-01-08 22:55:51 1861

原创 YOLOv5+混合注意力机制再涨4.3%，Transformer混合设计依旧可以卷

在工业生产过程中，由于低效率、不统一的评估、高成本以及缺乏实时数据，传统的手动检测焊接缺陷不再被应用。为了解决表面贴装技术中焊接缺陷检测的低准确率、高误检率和计算成本问题，提出了一种新方法。该方法是一种专门针对焊接缺陷检测算法的混合注意力机制，通过增加准确度并降低计算成本来提高制造过程中的质量控制。混合注意力机制包括提出的增强多头自注意力机制和协调注意力机制，以增加注意力网络感知上下文信息的能力，并提高网络特征利用率。协调注意力机制增强了不同通道之间的连接，减少了位置信息损失。

2024-01-06 22:28:39 2845

原创目标检测损失函数：IoU、GIoU、DIoU、CIoU、EIoU、alpha IoU、SIoU、WIoU原理及Pytorch实现

IoU全称Intersection over Union，交并比。IoU是一种测量在特定数据集中检测相应物体准确度的一个标准。只要是在输出中得出一个预测范围(bounding boxes)的任务都可以用IoU来进行测量。IoU算法是使用最广泛的算法，大部分的检测算法都是使用的这个算法。在目标识别中，我们的预测框与实际框的某种比值就是IoU。1.2 IoU计算公式通过上述分析，当预测框和真实框不相交时IoU值为0，导致很大范围内损失函数没有梯度。针对这一问题，提出了GIoU作为损失函数。

2023-12-28 23:05:15 8276 2

原创 ASF-YOLO开源 | SSFF融合+TPE编码+CPAM注意力，精度提升！

作者提出了一种新颖的注意力尺度序列融合基于YOLO框架（ASF-YOLO），该框架结合了空间和尺度特征，以实现精确快速的细胞实例分割。在YOLO分割框架的基础上，作者采用了尺度序列特征融合（SSFF）模块来增强网络的多尺度信息提取能力，并采用三特征编码器（TPE）模块将不同尺度的特征图进行融合，以增加详细信息。作者进一步引入了一种通道和位置注意力机制，以将SSFF和TPE模块集成起来，专注于具有信息量大、位置相关的较小目标，以提高检测和分割性能。

2023-12-14 23:06:09 10904 1

原创优化改进YOLOv5算法之感受野注意力卷积运算（RFAConv），效果秒杀CBAM和CA等

但是，。在论文中，作者对空间注意力的有效性提出了一个新的观点，即。然而，由空间注意力生成的注意力图中包含的信息。因此，，如卷积块注意力模块（CBAM）和协调注意力（CA），只关注空间特征，并没有完全解决卷积核参数共享的问题。由RFA开发的（RFAConv）。作者在ImageNet-1k、COCO和VOC数据集上进行了一系列实验，以证明他们的方法的优越性。特别重要的是，

2023-11-14 23:07:06 1818 1

原创全新Inner-IoU损失函数！！！通过辅助边界框计算IoU有效提升检测效果

随着检测器的快速发展，边界框回归（BBR）损失函数不断进行更新和优化。然而，现有的 IoU 基于 BBR 仍然集中在通过添加新损失项来加速收敛，忽略了 IoU 损失项本身的局限性。尽管从理论上讲，IoU 损失可以有效地描述边界框回归的状态，但在实际应用中，它无法根据不同的检测器和检测任务进行自适应调整，且不具备较强的泛化能力。基于上述情况，作者首先分析了 BBR 模型，并得出结论：区分不同的回归样本以及使用不同尺度的辅助边界框计算损失可以有效加速边界框回归过程。

2023-11-10 23:45:00 5264 1

原创 YOLOv5-6.1源码详解之损失函数loss.py

如下图所示，人、大巴为检测目标，既要检测出所有人和大巴的位置，也要检测出包围人和大巴的最小矩形框，同时还要识别出哪个矩形框内是人，哪个矩形框内是大巴。

2023-11-09 23:42:27 5457 2

原创优化改进YOLOv5算法之添加DCNv3模块，有效提升目标检测效果

拿到文章之后先看了一眼在ImageNet1k上的结果，确实很高，超越了同等大小下的VAN、RepLKNet、ConvNext等先进的大核注意力CNN模型，同时也超过了Swin、DeiT3、CoAtNet等ViT模型。回顾自从Vision Transformer被提出之后，通过大量数据训练出的ViT大模型刷新了许多视觉任务的记录，这得益于ViT的MHSA机制能够建模长距离依赖，具有相当低的归纳偏置，从而能够在海量数据中学习到强大鲁棒的特征表达。

2023-11-05 23:35:28 2316 2

原创优化改进YOLOv5算法之添加MS-Block模块，有效提升目标检测效果(超详细)

本博客主要是参考YOLO-MS论文的创新点，在YOLOv5算法中引入MS-Block模块，利用不同尺度特征信息，以进一步提升目标检测效果。作者旨在为目标检测社区提供一种高效且性能卓越的目标检测器，称为YOLO-MS。核心设计基于一系列对不同Kernel-Size卷积如何影响不同尺度上目标检测性能的研究。研究结果是一种可以显著增强实时目标检测器多尺度特征表示的新策略。为了验证作者策略的有效性，作者构建了一个名为YOLO-MS的网络架构。

2023-11-02 22:37:45 1469 1

原创优化改进YOLOv5算法：加入SPD-Conv模块，让小目标无处遁形——(超详细)

卷积神经网络(CNNs)在计算即使觉任务中如图像分类和目标检测等取得了显著的成功。然而，当图像分辨率较低或物体较小时，它们的性能会灾难性下降。这是由于现有CNN常见的设计体系结构中有缺陷，即使用卷积步长和/或池化层，这导致了细粒度信息的丢失和较低效的特征表示的学习。为此，我们提出了一个名为SPD-Conv的新的CNN构建块来代替每个卷积步长和每个池化层(因此完全消除了它们)。SPD-Conv由一个空间到深度(SPD)层和一个无卷积步长(Conv)层组成，可以应用于大多数CNN体系结构。

2023-10-30 23:12:49 1682

原创优化改进YOLOv5算法：加入大核分离卷积注意力模块（ Large Separable Kernel Attention），实现暴力涨点同时显著减少计算复杂性和内存——(超详细)

论文：Large Separable Kernel Attention: Rethinking theLarge Kernel Attention Design in CNN具有大内核注意力（LKA）模块的视觉注意力网络（VAN）已被证明在一系列基于视觉的任务中提供了卓越的性能，超过了视觉转换器（ViTs）。然而，随着卷积核大小的增加，这些LKA模块中的深度卷积层导致计算和内存占用的二次增加。为了缓解这些问题，并允许在VAN的注意模块中使用超大卷积核，我们提出了一个大的可分离核注意模块族，称为LSKA。LS

2023-10-29 23:34:06 1594 2

原创优化改进YOLOv5算法：加入ODConv+ConvNeXt提升小目标检测能力——(超详细)

为了提升无人机视角下目标检测效果，基于YOLOv5算法，在YOLOv5主干中实现了Omnidimensional Convolution（ODConv），以在不增加网络宽度和深度的情况下提高精度，还在YOLOv5骨干网中用ConvNeXt块替换了原始的C3块，以加快检测速度。

2023-10-26 22:55:15 1738

原创 windows下安装Visual Studio + CMake+OpenCV + OpenCV contrib+TensorRT

最近在研究windows系统上部署安装目标检测算法，需要用到OpenCV软件，因为OpenCV可能是目前使用最广泛的开源图像处理工具了，尤其是在科研领域。于是，本篇博客主要详细记录一下如何在Windows 操作系统下，搭建Visual Studio 2022+OpenCV4.5.5+OpenCV contrib4.5.5的运行环境。安装Visual Studio比较简单，首先去Visual Studio官网下载安装包下载Community版本就可以了，其功能已经够用了。

2023-06-27 08:29:55 3607 1

原创优化改进YOLOv5算法之针对小目标检测优化YOLOv5_Face2(超详细)

本文主要参考YOLO-FaceV2这个文章，该文章为了解决人脸检测中小目标、遮挡等问题，在YOLOv5算法的基础提出了几点改进，且取得了比较不错的效果。

2023-06-17 23:27:35 3250

原创优化改进YOLOv5算法之添加Res2Net模块(超详细)

由于单独的Res2Net模块对于整体网络结构没有特定的要求，Res2Net模块的多尺度表示能力也和CNN的分层特征聚合模型彼此独立，所以可以很容易地将Res2Net模块集成到现有的其他优秀CNN模型中。模块内部的连接形式与残差网络（ResNet）类似，故命名为Res2Net。在本文中，研究人员在一个单个残差块内构造分层的残差类连接，为CNN提出了一种新的构建模块，即Res2Net——以更细粒度（granular level）表示多尺度特征，并增加每个网络层的感受野（receptive fields）范围。

2023-04-21 17:28:42 3214 1

PCBDatasets.zip

空空如也