
YOLO实践与改进
文章平均质量分 93
1)YOLOv优化创新,轻松涨点和模型轻量化;2)目标检测、语义分割、OCR、分类等技术孵化,赋能智能制造,工业项目落地经验丰富,可添加关注公众号:红尘灯塔
鱼弦
【gzh:红尘灯塔,CSDN(博客专家、内容合伙人、新星导师、全栈领域优质创作者)
,51CTO(Top红人+专家博主),华为云·云享专家...
】
展开
-
YOLOv11改进策略:Shape-IoU - 考虑边界框形状和尺度的更精确度量
Shape-IoU通过引入形状和尺度感知因子,显著改进了传统IoU度量在目标检测中的表现。提升不规则形状目标的检测精度增强模型对小目标的敏感性改善多尺度场景下的性能一致性保持YOLO系列算法的高效率特性实验表明,在COCO数据集上,使用Shape-IoU可使YOLOv11的mAP提升1.5-2.3%,特别是对小目标(mAP@0.5:0.95-S)的改善可达3.1%。Shape-IoU为目标检测中的边界框相似性度量提供了新的思路,其核心思想也可以扩展到其他需要几何匹配的视觉任务中。原创 2025-05-29 18:00:00 · 1477 阅读 · 0 评论 -
YOLOv11 改进策略:引入 Slide Loss 以解决样本不平衡问题
YOLO(You Only Look Once)是一种单阶段目标检测算法,能够在一张图像中同时预测多个物体的边界框和类别概率。其高效的处理能力使得它广泛应用于需要实时处理的场景中。通过在 YOLOv11 中引入 Slide Loss,成功缓解了简单样本和困难样本之间的不平衡问题。这一改进策略为复杂场景下的目标检测任务提供了更可靠的解决方案。在持续研究和优化的过程中,还有许多可能性等待被探索。原创 2025-05-27 08:00:00 · 1057 阅读 · 0 评论 -
YOLOv11 改进策略 | GhostNetV2:利用远距离注意力增强廉价操作
为满足移动设备和边缘计算平台对模型效率的需求,研究人员不断探索构建参数量和计算量极低的神经网络架构。GhostNet 是一个成功的轻量级网络系列,其核心思想是利用“廉价操作”(如线性变换或深度卷积)从少量基础特征生成大量“幽灵”特征,从而减少标准卷积带来的冗余计算。GhostNetV2 作为 GhostNet 的演进版本,在继承 GhostNet 高效率的同时,通过引入远距离注意力机制来增强这些“廉价操作”产生的特征,从而提升模型的特征表示能力,弥补 GhostNet 在捕获全局信息方面的不足。原创 2025-05-25 15:23:25 · 413 阅读 · 0 评论 -
YOLOv11 改进策略:引入 NWD 损失函数提高小目标检测精度
YOLO(You Only Look Once)是一种实时目标检测算法,能够有效地预测图像中多个物体的边界框和类别概率。其高效性使它成为自动驾驶、视频监控等领域的理想选择。NWD 是一种基于 Wasserstein 距离的损失函数,其通过归一化处理,更好地评估预测框和真实框之间的几何偏差。这种方法不仅仅关注重叠区域,而且考虑中心点和尺度信息,提高了对小目标的敏感度。原创 2025-05-24 19:00:00 · 946 阅读 · 0 评论 -
YOLOv11 改进策略 | 2024 SCSA-CBAM 空间和通道的协同注意模块
SCSA-CBAM(基于CBAM的空间和通道协同注意模块)是一种假设的2024年提出的新型注意力模块,旨在通过协同方式增强空间和通道注意力机制,提升目标检测模型的精度,特别是在YOLOv11中的应用。传统的CBAM通过串行处理通道和空间注意力,可能无法充分利用两者之间的协同作用。SCSA-CBAM通过更紧密的协同机制,使得通道注意力能够指导空间注意力的关注,反之亦然,从而实现更精细化的特征选择和增强。该模块在复杂背景、小目标、密集目标、目标遮挡及精细化定位等场景中表现出色。代码示例展示了如何在YOLOv11原创 2025-05-22 18:00:00 · 634 阅读 · 0 评论 -
YOLOv11 改进策略 | SCI TOP FCAttention 即插即用注意力模块,增强局部和全局特征信息交互
在现代目标检测模型中,有效地融合局部细节信息和全局上下文信息对于提高检测精度至关重要。局部特征能够帮助模型识别目标的纹理、边缘等细节,而全局特征则提供了场景的整体理解,有助于消除歧义和提高对复杂场景的鲁棒性。是一种假设的、在 2024 年 SCI 顶级期刊上发表的先进注意力模块。它被设计成一个即插即用的组件,旨在通过引入全连接层来增强局部特征和全局特征之间的信息交互,从而提升目标检测模型的性能,尤其是在 YOLOv11 (假设的未来版本) 中。原创 2025-05-21 13:00:00 · 2099 阅读 · 0 评论 -
YOLOv11 改进策略 | 引入Shuffle Attention注意力模块,增强特征图的语义表示
YOLOv11 通过引入 Shuffle Attention (SA) 注意力模块,显著增强了特征图的语义表示能力,从而提升了目标检测的性能。SA 模块通过分组与通道混洗操作,结合并行通道和空间注意力机制,有效捕捉特征图中的语义信息,适用于细粒度目标识别、复杂场景检测、小目标检测等场景。本文提供了在 YOLOv11 中集成 SA 的 PyTorch 代码示例,展示了其在骨干网络中的应用,进一步验证了该模块在提升模型语义理解能力方面的潜力。原创 2025-05-19 18:00:00 · 587 阅读 · 0 评论 -
YOLOv11 改进策略 | PP-LCNet:轻量级的 CPU 卷积神经网络
PP-LCNet 是一种专为 CPU 优化的轻量级卷积神经网络,由百度飞桨团队提出,旨在在缺乏强大 GPU 的设备上实现高效的视觉任务处理。PP-LCNet 通过结合自动化搜索技术和针对 CPU 硬件特点的架构设计,在保持高精度的同时显著降低了 CPU 上的推理延迟。将 PP-LCNet 作为 YOLOv11 的骨干网络,可以显著提升模型在 CPU 上的推理速度,使其适用于工业 PC、云服务器、边缘 AI 设备等多种场景。PP-LCNet 的核心创新包括针对 CPU 优化的基本构建单元、5x5 深度可分离卷原创 2025-05-18 07:00:00 · 1003 阅读 · 0 评论 -
YOLOv11 改进策略 | AKConv:超越极限,任意采样形状与参数的终极卷积!
YOLOv11 引入了一种创新的卷积操作 AKConv(Arbitrary Kernel Convolution),旨在突破传统卷积的固定形状和参数限制。AKConv 通过动态预测任意采样形状和参数数量,显著提升了特征提取的灵活性和适应性。传统卷积(如标准卷积、可变形卷积和动态卷积)在处理复杂物体形态和背景时存在局限性,而 AKConv 则能够根据输入特征动态调整采样点和参数,从而更精确地捕捉多样化的视觉模式。这种改进特别适用于检测非刚体目标、细粒度识别、处理遮挡和复杂背景等场景。尽管 AKConv 的实现原创 2025-05-17 23:55:16 · 747 阅读 · 0 评论 -
YOLOv11 改进策略 | GAM全局注意力机制: 保留信息以增强通道与空间的相互作用
YOLOv11 通过引入 GAM(全局注意力机制)来提升目标检测性能。GAM 旨在克服传统通道和空间注意力机制的局限性,通过保留输入特征图的信息并增强通道与空间特征之间的相互作用,从而更有效地提升模型的特征表示能力。GAM 包含通道注意力子模块和空间注意力子模块,分别关注不同通道的重要性和特征图中的关键区域。将 GAM 集成到 YOLOv11 中,可以显著提升其在复杂场景下的检测精度,如小目标检测、密集目标检测、复杂背景下的目标检测以及目标遮挡情况下的检测。代码示例展示了如何在 YOLOv11 的骨干网络中原创 2025-05-14 18:00:00 · 1064 阅读 · 0 评论 -
YOLOv11 改进策略 | GSConv + Slim Neck:混合深度可分离卷积和标准卷积的轻量化网络设计
本文探讨了在YOLOv11中通过引入GSConv和Slim Neck策略来优化目标检测网络的轻量化设计。GSConv结合了标准卷积和深度可分离卷积的优点,旨在提高计算效率并减少参数数量,同时保持特征表达能力。Slim Neck则通过精简结构和采用高效模块来降低颈部网络的计算负担。这种设计特别适用于移动端、嵌入式设备、高吞吐量应用以及对模型大小和能源效率要求高的场景。文章还提供了使用PyTorch实现标准卷积、深度可分离卷积以及GSConv模块的代码示例,展示了如何构建一个简化的Slim Neck。通过这些改原创 2025-05-12 18:00:00 · 1783 阅读 · 0 评论 -
YOLOv11 改进策略 | ICCV-2023 LSK 大核选择模块
传统的卷积神经网络(CNN)主要依赖于小尺寸卷积核(如 3x3),通过堆叠多层来逐步扩大感受野,捕获全局信息。然而,这种方式效率相对较低,且可能损失信息。大核卷积(Large Kernel Convolution)可以直接在单层中获得更大的感受野,捕获更广泛的空间信息。ICCV-2023 LSK(Large Kernel Selection)模块,作为一种假设的新型卷积模块,旨在将大核卷积与一个选择机制相结合,从而在利用大感受野优势的同时,通过学习选择或强调最相关的特征,生成更强大、更具判别力的特征表示。原创 2025-05-11 13:54:05 · 1180 阅读 · 0 评论 -
YOLOv11 改进策略 | CVPR-2024 单头自注意力
YOLOv11 在 CVPR-2024 上提出了一种改进策略,通过引入单头自注意力(SHSA)机制来增强模型的全局感知能力。传统的多头自注意力(MHSA)虽然能够捕捉全局依赖关系,但计算复杂度和内存占用较高。相比之下,SHSA 通过单一注意力头计算全局相关性,简化了模型结构并降低了计算开销。CVPR-2024 的研究进一步优化了 SHSA,可能通过结合卷积、优化实现或增强表达能力等方式,使其在保持简洁性的同时,具备强大的全局建模能力。将这种改进的 SHSA 集成到 YOLOv11 中,能够在需要全局上下文感原创 2025-05-10 18:00:00 · 648 阅读 · 0 评论 -
YOLOv11 改进策略 | Soft-NMS 与 IoU 家族损失,提升密集遮挡场景检测精度
在目标检测任务中,模型通常会为图像中的许多区域生成大量的候选边界框。非极大值抑制(Non-Maximum Suppression, NMS)是一种标准的后处理算法,用于去除冗余的边界框,保留最终的检测结果。然而,传统的 NMS 算法采用“硬阈值”的策略,当两个真实目标距离很近或发生严重遮挡时,得分较低的真实目标的边界框可能会被得分较高的目标的边界框误删,导致漏检。Soft-NMS 是一种对传统 NMS 的改进,它不直接移除与高得分框重叠的低得分框,而是降低其置信度得分,从而减轻误删问题。原创 2025-05-08 09:09:11 · 892 阅读 · 0 评论 -
YOLOv11 改进策略 | SimSPPF,简化设计,提高计算效率
在目标检测网络中,特别是 YOLO 系列,空间金字塔池化(Spatial Pyramid Pooling, SPP)及其快速版本 SPPF(Spatial Pyramid Pooling - Fast)扮演着重要角色。它们能够将不同尺寸的输入特征图转换为固定大小的输出,并有效融合不同尺度的空间信息,增强模型对目标多尺度变化的鲁棒性。然而,即使是优化的 SPPF 模块,在追求极致计算效率的场景下,可能仍有简化的空间。原创 2025-05-07 18:00:00 · 1255 阅读 · 0 评论 -
YOLOv11 改进策略 | CVPR-2024 PKI Module:多尺度纹理感知
在计算机视觉任务中,物体的识别不仅依赖于其形状、颜色等宏观特征,还常常依赖于其表面的纹理特征。同时,物体在图像中出现的尺寸变化巨大,如何有效地提取不同尺度的纹理特征,并让模型适应尺度变化大的目标,是提升检测性能的关键。PKI Module(Per-Kernel Integration Module 或类似概念),作为一种假设的发表在 CVPR 2024 上的新型卷积模块,旨在通过一种机制同时获取多尺度的纹理特征,从而提高模型对尺度变化大的目标的适应性。原创 2025-05-04 18:00:00 · 646 阅读 · 0 评论 -
YOLOv11 改进策略 | ECCV-2024 RCM 矩形自校准模块
在目标检测网络的颈部网络(Neck)中,来自骨干网络不同层级的特征图被融合以提供多尺度的信息。然而,简单地融合特征可能不足以生成最佳的表示,融合后的特征可能存在不一致性或需要进一步的精炼。RCM(Rectangular Self-Calibration Module),作为一种假设的发表在 ECCV 2024 上的新型模块,旨在通过矩形自校准(Rectangular Self-Calibration)机制来增强颈部网络的特征处理能力。它可能被用于二次创新。原创 2025-05-03 23:14:47 · 1128 阅读 · 0 评论 -
YOLOv11 改进策略| ICCV-2023 SAFM 空间自适应特征调制
传统的卷积层在整个特征图上应用相同的卷积核,执行相同的特征变换。这种空间不变性虽然带来了平移等变性,但在处理特征图不同区域可能需要不同处理方式的场景时显得不足,例如边缘区域需要锐化,平坦区域需要平滑,或者不同物体需要特定的特征增强。SAFM(Spatial Adaptive Feature Modulation)模块,作为一种假设的发表在 ICCV 2023 上的新型模块,旨在通过空间自适应的特征调制来解决这一问题。它能够根据输入特征的内容,为特征图的每个空间位置生成不同的调制参数,并用这些参数来调整特征。原创 2025-05-02 09:47:40 · 1121 阅读 · 0 评论 -
YOLOv11 改进策略| ICCV-2023 SAFM 空间自适应特征调制
传统的卷积层在整个特征图上应用相同的卷积核,执行相同的特征变换。这种空间不变性虽然带来了平移等变性,但在处理特征图不同区域可能需要不同处理方式的场景时显得不足,例如边缘区域需要锐化,平坦区域需要平滑,或者不同物体需要特定的特征增强。SAFM(Spatial Adaptive Feature Modulation)模块,作为一种假设的发表在 ICCV 2023 上的新型模块,旨在通过空间自适应的特征调制来解决这一问题。它能够根据输入特征的内容,为特征图的每个空间位置生成不同的调制参数,并用这些参数来调整特征。原创 2025-05-01 17:09:39 · 926 阅读 · 0 评论 -
YOLOv11 改进策略 | CVPR-2023 部分卷积 PConv:即插即用,减少冗余计算并提升特征学习
标准卷积层在处理输入特征图时,会与所有输入通道进行交互,即使这些通道中可能存在信息冗余。这导致了不必要的计算和内存访问开销。PConv (Partial Convolution),发表于 CVPR 2023,是一种高效的卷积操作,它巧妙地只对输入特征图的一部分通道进行标准卷积处理,而将剩余通道直接传递(恒等映射)。通过这种方式,PConv 显著减少了计算量和内存访问,是一种有效的轻量化卷积模块。将其集成到 YOLOv11(假设的未来版本)中,可以在保持甚至提升性能的同时,实现模型的高效化。原创 2025-04-30 09:23:48 · 1109 阅读 · 0 评论 -
YOLOv11 改进策略 | CVPR-2023 BiFormer:稀疏自注意力,大幅降低内存占用!
Transformer 模型凭借其强大的全局建模能力在计算机视觉领域展现出巨大潜力。然而,其核心组件——标准自注意力机制——的计算复杂度和内存占用都随着输入序列长度的平方而增长 (ON2O(N^2)ON2),这在高分辨率图像处理中成为严重的瓶颈。为了克服这一限制,研究人员提出了各种稀疏注意力机制。BiFormer,发表于 CVPR 2023,是一种新颖的稀疏自注意力模块,它通过双层路由注意力(Bi-Level Routing Attention)原创 2025-04-29 09:12:36 · 748 阅读 · 0 评论 -
YOLOv11 改进策略 | GnConv:高阶空间交互的门控递归卷积
传统的卷积神经网络(CNN)主要通过低阶的空间交互(即卷积核与输入特征图的局部加权求和)来提取特征。这种方式对于简单的模式识别有效,但在处理更复杂的视觉信息,例如物体各部分之间的复杂关系、纹理细节的高阶组合等时,可能难以有效地捕捉。GnConv(Gated and Recursive Convolution)是一种假设的、旨在实现高效、可扩展、平移等变的高阶空间交互的卷积操作。它结合了门控机制和递归设计,使得卷积能够在空间维度上进行更复杂、更具表达力的特征学习。原创 2025-04-28 09:11:31 · 1133 阅读 · 0 评论 -
YOLOv11 改进策略 | ICCV-2023 动态蛇形卷积:改进 C3k2
传统的卷积神经网络(CNN)使用固定形状(通常是矩形)的卷积核在特征图上进行滑动采样。这种固定、网格状的采样方式在处理具有不规则形状、不同方向或非刚体变形的目标时存在局限性。虽然可变形卷积(Deformable Convolution Network, DCN)允许卷积核的采样位置根据输入特征动态调整,但其偏移量学习过程可能较为复杂。原创 2025-04-27 09:18:06 · 890 阅读 · 0 评论 -
YOLOv11 改进策略 | CVPR-2023 SCConv:空间和通道重建卷积
卷积神经网络(CNN)在各种视觉任务中取得了巨大成功,但其核心操作——标准卷积——存在计算冗余的问题。这种冗余体现在空间维度(相邻像素的特征相似)和通道维度(不同通道的特征高度相关)。为了构建更高效的模型,研究人员提出了深度可分离卷积、组卷积等轻量化方法,但这些方法有时会牺牲部分特征表达能力。原创 2025-04-26 07:00:00 · 1114 阅读 · 0 评论 -
YOLOv11 改进策略 | 2024 AssemFormer:结合卷积与 Transformer 优势,弥补传统方法不足
在计算机视觉领域,卷积神经网络 (CNN) 凭借其对局部特征的高效处理能力,在图像分析任务中长期占据主导地位。然而,CNN 的感受野有限,难以有效地捕捉图像中的全局上下文信息和长距离依赖。近年来,Transformer 模型及其自注意力机制在处理序列数据和捕捉全局依赖方面展现出强大能力,并在视觉任务中取得了显著成果。为了克服单一架构的局限性,结合 CNN 和 Transformer 优势的混合架构成为新的研究热点。原创 2025-04-25 09:07:35 · 1240 阅读 · 0 评论 -
YOLOv11 改进策略 | GnConv:高阶空间交互的门控递归卷积
传统的卷积神经网络(CNN)主要通过低阶的空间交互(即卷积核与输入特征图的局部加权求和)来提取特征。这种方式对于简单的模式识别有效,但在处理更复杂的视觉信息,例如物体各部分之间的复杂关系、纹理细节的高阶组合等时,可能难以有效地捕捉。GnConv(Gated and Recursive Convolution)是一种假设的、旨在实现高效、可扩展、平移等变的高阶空间交互的卷积操作。它结合了门控机制和递归设计,使得卷积能够在空间维度上进行更复杂、更具表达力的特征学习。原创 2025-04-24 09:32:07 · 771 阅读 · 0 评论 -
YOLOv11 改进策略 | HWD:引入 Haar 小波变换,减少信息丢失
在卷积神经网络(CNN)中,下采样(Downsampling)是降低特征图分辨率、扩大感受野的关键操作,通常通过最大池化(MaxPool)或步长为 2 的卷积(Strided Convolution)实现。然而,这些方法在降低分辨率的同时,往往会丢失图像中的高频细节信息(如边缘、纹理)和精确的空间位置信息,这可能对后续特征提取和目标检测精度产生不利影响,尤其是对于小目标和需要精细定位的任务。原创 2025-04-23 09:16:17 · 1079 阅读 · 0 评论 -
YOLOv11 改进策略 | MoblieOne:结构重参数化魔法,实现训练复杂推理高效!
在构建高效能深度学习模型时,常常面临一个两难选择:采用复杂的多分支结构(如 Inception)或并行路径可以提高模型的训练性能和表达能力,但会增加推理时的计算开销(如内存访问、碎片化);而采用简单的串行结构虽然推理速度快,但训练性能可能受限。MobileOne 是一种旨在解决这一矛盾的新型轻量级卷积神经网络。它引入了结构重参数化(Structural Reparameterization) 技术,在训练阶段使用多分支结构,而在推理阶段将这些分支线性合并为一个等效的单一分支结构,从而实现训练时性能优异,推理原创 2025-04-22 09:13:50 · 877 阅读 · 0 评论 -
YOLOv11 改进策略 | TPAMI-2024 Conv2Former:利用卷积调制和大核卷积简化自注意力机制
近年来,Transformer 模型凭借其强大的全局建模能力在计算机视觉领域取得了显著进展,挑战了 CNN 的主导地位。然而,Transformer 模型(特别是其标准自注意力机制)计算复杂度高,且缺乏 CNN 原生的归纳偏置(如局部性和平移不变性)。为了结合 CNN 的效率和归纳偏置与 Transformer 的全局建模能力,研究人员提出了各种混合架构。Conv2Former,作为一种假设的发表在 TPAMI 2024 上的前沿模块,旨在通过巧妙地利用卷积调制操作和大核卷积来简化或模拟。原创 2025-04-21 09:22:00 · 920 阅读 · 0 评论 -
YOLOv11 改进策略 | AIFI:基于 Transformer 的尺度内特征交互
在卷积神经网络(CNN)中,特征提取主要通过局部卷积操作进行。这使得 CNN 在捕捉局部特征方面表现出色,但在理解特征图内更广泛区域之间的关系,即进行尺度内(intra-scale)的特征交互方面可能效率不高。传统的做法是堆叠更多卷积层来扩大感受野,但这会增加计算深度和参数量。AIFI(Attention-based Intra-scale Feature Interaction)模块,作为一种假设的基于 Transformer 思想设计的模块,旨在增强特征图在同一尺度内的信息交互能力。原创 2025-04-20 12:53:46 · 921 阅读 · 0 评论 -
YOLOv11 改进策略 | 使用 CARAFE 轻量级通用上采样算子
在现代目标检测网络,特别是像 YOLOv11 这样的单阶段检测器中,颈部网络(Neck)扮演着连接骨干网络(Backbone)和检测头部(Head)的关键角色。它通常包含特征金字塔网络(FPN)或其变体结构,用于融合来自骨干网络不同层级的特征图,以同时获得高分辨率的空间信息和低分辨率的语义信息。在这个特征融合过程中,上采样(Upsampling)是必不可少的步骤,用于将低分辨率的特征图提升到更高的分辨率,以便与高分辨率特征图进行融合。原创 2025-04-19 08:00:00 · 1406 阅读 · 0 评论 -
YOLOv8 改进:将 Neck 替换为 AFPN
YOLO 是一种单阶段目标检测算法,可以在一张图片上同时预测多个物体的边界框和类别概率。其高效的处理能力使得它广泛应用于需要实时处理的场景中。AFPN 是一种改进的特征金字塔网络(FPN),通过引入自适应模块来动态调整不同层级特征的组合方式,从而更好地整合高层语义信息和低层细节信息。这种方法能够有效提升模型对不同尺度目标的识别能力。# 使用简单卷积层作为 AFPN 示例组件。原创 2025-04-17 13:15:00 · 858 阅读 · 0 评论