自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(182)
  • 收藏
  • 关注

原创 YOLO12改进-模块-引入AFE模块 增强模型对复杂场景(如杂乱背景、小目标、半透明物体)的特征提取能力

在语义分割任务中,复杂场景下的语义线索捕捉是一个挑战。现有方法如CNN和Transformer各有局限:CNN难以建模长距离上下文,Transformer计算成本高且忽视局部细节。混合模型虽结合两者优势,但对复杂场景的处理仍不充分。为此,提出了自适应特征增强模块(AFE),通过大内核卷积扩大感受野,分离并融合高低频特征,增强语义细节。AFE模块包括卷积嵌入、空间上下文模块、特征refinement模块和卷积多层感知机。将AFE引入YOLOv12模型,可提升对复杂场景的特征提取能力,尤其适用于工业检测和医疗影

2025-05-29 09:31:52 615

原创 YOLO12 改进|融入 Mamba 架构:高效视觉状态空间模块 EVSS 模块,模糊图像清晰化与特征增强, 提升小目标 多尺度

本文提出一种结合高效视觉状态空间模块(EVSS)的YOLOv12目标检测改进方法。针对图像去模糊任务中CNN局部性局限和Transformer计算复杂度高的问题,EVSS模块通过几何变换层和选择性扫描机制实现高效长距离依赖建模,同时引入判别频域前馈网络增强特征表达。该模块与YOLOv12结合,有效提升模糊图像下的检测性能,适用于工业质检等动态模糊场景。文中详细提供了代码实现路径和模型配置方法,包括核心代码集成、任务文件修改、配置文件复制等具体步骤,并给出完整的模型训练示例代码。该方法在保持实时推理速度的同时

2025-05-28 07:26:38 852

原创 YOLO11改进-mamba-引入 高效视觉状态空间模块EVSS 提升复制场景下的多尺度 小目标问题,减少噪声

在图像去模糊等视觉任务中,传统卷积神经网络(CNNs)因局部感受野的限制难以捕捉全局依赖关系,而 Transformer 虽能建模长距离信息,但其二次方计算复杂度却使其在高分辨率图像场景中举步维艰。状态空间模型(SSMs)虽在自然语言处理中以线性复杂度实现长序列建模,但其向视觉领域迁移时面临两大棘手挑战:一是需将二维图像展平为一维序列,这会破坏图像的局部空间关联性,导致空间结构断裂;二是现有方法为弥补空间信息缺失而采用多方向扫描,却带来计算成本的激增,如 VMamba 的计算量可达单方向扫描的 4 倍。EV

2025-05-28 07:25:55 933

原创 YOLO12改进-mamba-引入视觉状态空间模块VSS Block 高效融合多尺度特征​ 提升复杂场景下目标定位精度与背景区分能力

本文提出了一种改进YOLOv12目标检测模型的方法,通过引入视觉状态空间模块VSSBlock来增强特征提取能力。VSSBlock采用双分支架构,结合卷积网络的局部特征提取和状态空间模型的全局依赖建模优势,有效解决了传统方法在长距离依赖和跨尺度特征融合方面的不足。文章详细说明了将VSSBlock集成到YOLOv12的实现步骤,包括代码修改、模型配置和训练流程,适用于农业籽粒检测等需要同时关注局部细节和全局语义的应用场景。该方法在保持检测速度的同时提升了复杂场景下的目标定位精度。

2025-05-27 07:50:14 655

原创 YOLO11改进-mamba-引入mamba_layer 增强局部细节与全局语义的平衡,提高多尺度 小目标检测能力

本文提出将视觉状态空间模块(VSSBlock)引入YOLOv11目标检测框架,以提升模型性能。VSSBlock结合卷积的局部特征提取能力和Transformer的全局依赖建模,通过双分支结构(含3×3深度卷积和SS2D模块)实现高效特征提取,计算复杂度降至线性水平。实验表明,改进后的YOLOv11在保持实时检测效率的同时,显著增强了对长距离依赖和多尺度特征的捕捉能力。文中详细提供了代码集成步骤,包括模块导入、模型配置修改及训练流程,为相关研究提供了可复现的技术方案。该改进适用于复杂场景下的目标检测任务。

2025-05-27 07:28:28 1091

原创 YOLO12改进-模块-引入风车形卷积(PConv) 增强对红外小目标底层特征的提取能力

本文针对红外小目标检测中传统卷积神经网络(CNN)方法特征提取不足的问题,提出了一种基于高斯空间分布特性的风车形卷积(PConv)模块。PConv通过非对称填充和方向分离的卷积核,模拟目标中心到边缘的像素强度衰减模式,增强了对红外小目标底层特征的提取能力。该模块采用分组卷积和多分支结构,在扩大感受野的同时控制参数增长,实现了轻量化设计。实验表明,将PConv引入YOLOv12模型后,显著提升了红外小目标的检测效果。文章还详细介绍了PConv的代码实现和YOLOv12模型的改进步骤,为相关研究提供了实用参考。

2025-05-26 09:31:04 993

原创 YOLO12改进-模块-引入Adaptive Sparse Self-Attention (ASSA) 降低噪声,提高小目标或复杂场景下的检测精度。

本文介绍了一种基于Transformer的图像恢复方法——自适应稀疏自注意力机制(ASSA),旨在解决标准自注意力机制在计算复杂度、噪声交互和特征冗余方面的问题。ASSA采用双分支结构,结合稀疏自注意力(SSA)和密集自注意力(DSA),通过平方ReLU激活和Softmax分别实现噪声过滤和全局信息保留,并通过自适应融合机制平衡两者。此外,ASSA被引入YOLOv12模型,以增强特征处理能力,抑制冗余与噪声,并提升长距离依赖建模能力。文章还详细描述了将ASSA集成到YOLOv12中的代码实现步骤,包括模型配

2025-05-26 09:28:31 668

原创 YOLO12改进-Backbone-引入Swin Transformer替换backbone

在计算机视觉领域,卷积神经网络(CNNs)和Transformer架构分别在不同任务中取得了显著成功。受Transformer在自然语言处理中的启发,研究人员将其应用于视觉任务,但面临计算复杂度高等挑战。SwinTransformer通过引入滑动窗口机制和层次化设计,有效降低了计算复杂度,同时保持了Transformer的建模能力。改进后的SwinTransformer结合了移位窗口自注意力和相对位置偏差,进一步提升了模型性能。此外,SwinTransformer与YOLOv12的结合,通过层次化特征图和移

2025-05-23 10:18:27 1720

原创 YOLO12改进-模块-引入CAFM 模块 增强复杂场景中小目标或遮挡目标的检测,减少漏检与误检。

高光谱图像(HSI)去噪中,传统卷积神经网络(CNNs)和Transformer各有优劣,前者擅长局部特征捕捉,后者则能有效建模全局依赖。为结合两者优势,提出了基于卷积与注意力机制的CAFM模型。CAFM通过并行的局部分支和全局分支,分别利用卷积和自注意力机制提取局部细节和全局依赖,并通过残差连接融合两路输出,实现全局与局部特征的协同建模。进一步,将CAFM引入YOLOv12目标检测模型,增强特征表达和多尺度建模能力,提升复杂场景下的目标检测精度。具体实现包括代码集成、模型配置和训练流程的调整,最终通过实验

2025-05-22 12:10:49 917

原创 YOLOv12 双 Backbone 架构:从单路到多径的特征革命,增加你论文的创新点,轻松发SCI

双Backbone架构在实时目标检测领域应运而生,旨在突破传统单Backbone架构的局限性。单Backbone架构如YOLOv12虽在速度和精度上取得平衡,但在特征表达和模态融合方面存在不足,尤其在复杂场景和多尺度目标检测中表现受限。双Backbone架构通过并行特征提取路径,实现多维度信息互补,提升模型性能。其设计包括共享输入型和双输入型,前者通过不同Backbone提取多层次特征并融合,后者处理不同输入源以支持跨模态融合。多元组合策略如CNN+CNN、CNN+Transformer和CNN+Mamba

2025-05-22 11:58:03 1191

原创 YOLO12改进-模块-引入CASelf_Attention模块 提升小目标检测和复杂场景下的定位精度。

视觉Transformer(ViT)在全局上下文信息捕捉上表现优异,但其多头自注意力机制(MSA)存在计算复杂度高、移动端部署困难等问题。为解决这些问题,提出了卷积加法自注意力机制(CASelf_Attention),通过卷积和加法操作替代复杂的矩阵运算,降低计算复杂度至线性级别,同时保留全局建模能力。CASelf_Attention结合了空间和通道注意力分支,通过卷积提取局部空间信息和通道间依赖,最终通过加法融合和线性变换输出。该机制被引入YOLOv12模型,增强了全局上下文建模能力,提升了小目标检测和复

2025-05-21 11:56:02 976

原创 YOLO11改进-Backbone-引入SwinTransformer_mona替换YOLO backbone

在视觉任务中,预训练模型的微调效率是关键。传统全量微调方法计算成本高且易过拟合,而早期Delta-tuning方法在复杂任务中性能有限。SwinTransformer作为高性能视觉主干网络,其微调效率问题尤为突出。为此,SwinTransformer_mona引入了多认知视觉适配器(Mona),通过多尺度视觉特征认知和输入特征分布优化,以参数高效的方式突破传统微调的性能瓶颈,实现对全量微调的替代。Mona适配器嵌入SwinTransformer的每个Block中,通过多尺度卷积组和输入优化层,增强对复杂场景

2025-05-21 11:53:43 1333

原创 YOLOv8 的双 Backbone 架构:解锁目标检测新性能

在目标检测领域,YOLOv8因其高效和精准而广受欢迎,但传统的单Backbone架构在处理复杂场景时存在局限性,如难以平衡细节特征与宏观语义信息,导致误检或漏检。为应对这些挑战,双Backbone架构成为提升YOLOv8性能的潜在方向。双Backbone架构通过引入两个不同的主干网络,融合多元化的特征信息,增强目标检测能力。具体实现包括共享输入和双输入两种结构,前者通过并行特征提取路径增强模型判别能力,后者则允许处理不同来源的输入,如RGB图像与深度图像结合,提升模型适应性。此外,双Backbone架构的多

2025-05-20 14:49:24 1079 2

原创 YOLO12改进-模块-引入Cascaded Group Attention(CGA)模块 提升小目标检测和复杂场景下的定位精度。

视觉Transformer中的多头自注意力(MHSA)存在计算冗余问题,不同注意力头学习到的特征相似性较高,导致资源浪费。为解决这一问题,提出了CGA(Cascaded Group Attention)方法,通过特征分解和头间级联机制降低冗余并提升计算效率。CGA将输入特征沿通道维度划分为多个子特征,每个注意力头仅处理特定子特征,避免重复计算。同时,前一头的输出与当前头的输入级联,逐步优化特征表示,增强模型对多尺度特征的捕捉能力。CGA还可与YOLOv12结合,提升目标检测性能,尤其适用于小目标检测。具体实

2025-05-20 11:39:33 967

原创 YOLO12改进-模块-引入Convolutional Gated Linear Unit(CGLU)模块 提升小目标检测和复杂场景下的定位精度。

在视觉Transformer(ViT)领域,传统的通道注意力机制如SE(Squeeze-and-Excitation)存在灵活性不足和粒度较粗的问题。ConvolutionalGLU(CGLU)通过结合Gated Linear Unit(GLU)和3×3深度卷积(DWConv),解决了SE机制的局限性。CGLU在门控分支中引入局部特征,避免了全局平均池化的粗粒度问题,同时利用卷积的局部建模能力增强模型对上下文的感知。CGLU结构包含值分支和门控分支,通过动态门控机制调节通道间信息流动,提升模型的鲁棒性和特征

2025-05-20 11:38:24 897

原创 YOLO12改进-模块-引入级联多感受野模块(CMRF)模块 提升多尺度检测能力。

在医学图像分割领域,轻量化模型常因参数和计算量减少而导致特征表达能力不足,影响分割性能。传统多感受野技术虽能提升性能,但增加了模型复杂度,难以兼顾轻量化与高性能。为此,研究团队提出级联多感受野模块(CMRF),通过高效策略融合多尺度特征,平衡模型轻量化与分割精度。CMRF模块利用通道信息冗余,通过深度可分离卷积和逐点卷积挖掘跨通道关联,并采用级联多感受野策略,在单一层内捕获多尺度感受野信息,避免传统并行结构的高计算成本。CMRF模块的结构包括输入处理、线性融合分支、级联卷积分支和特征融合。将CMRF模块插入

2025-05-19 09:38:14 851

原创 YOLO12改进-模块-引入CMUNeXt模块 提升多尺度、小目标检测能力。

传统U型卷积网络在提取全局上下文信息方面存在局限,影响病变定位精度。尽管CNN与Transformer混合架构能解决此问题,但计算资源消耗大且难以适配医学数据。为此,研究人员提出CMUNeXtBlock,结合大卷积核与深度可分离卷积,在轻量级网络中实现全局信息提取与参数优化的平衡。CMUNeXtBlock通过大核深度卷积提取全局空间信息,利用倒置瓶颈逐点卷积混合空间与通道信息,并引入残差连接、GELU激活函数和批量归一化层,增强网络对长距离依赖关系的建模能力。该模块与YOLOv12结合,可提升目标定位精度与

2025-05-19 09:37:16 1116

原创 YOLO12改进-模块-引入Convolutional Modulation模块 捕捉更丰富的局部 - 全局空间关系,提升目标边界定位精度。

卷积神经网络(ConvNets)在视觉识别中擅长捕捉局部特征,但在全局上下文依赖建模上存在局限;而Vision Transformers(ViTs)虽能有效处理全局关系,却面临高分辨率图像下计算成本高的问题。Convolutional Modulation作为一种新方法,通过卷积操作简化自注意力机制,利用大核卷积更高效地编码空间特征,避免了自注意力的二次复杂度。该方法通过深度卷积生成权重矩阵,并与线性投影后的特征进行哈达玛积,实现局部区域内的特征加权聚合。Convolutional Modulation被引

2025-05-18 10:15:53 907

原创 YOLO12改进-模块-引入Channel Reduction Attention (CRA)模块 降低模型复杂度,提升复杂场景下的目标定位与分类精度

在语义分割任务中,传统自注意力机制(如SRA)因高分辨率特征图导致计算成本高昂。为解决这一问题,MetaSeg提出了ChannelReductionAttention(CRA)模块,通过压缩查询(Query)和键(Key)的通道维度至一维,显著降低计算复杂度,同时保持性能。CRA基于多头自注意力机制,通过线性投影将Query和Key的通道维度压缩至一维标量,使计算复杂度降至O(N²),并通过平均池化处理值(Value)保持信息完整性。实验表明,CRA在保持全局上下文信息的同时,计算量较传统方法减少约50%。

2025-05-18 10:15:20 1210

原创 YOLO12改进-Backbone-引入TransXNet替换YOLO backbone 学习全局和局部动态信息,提高检测精度

VisionTransformer(ViT)在计算机视觉领域取得了显著进展,但其缺乏卷积神经网络(CNNs)的归纳偏差,导致泛化能力较弱。SwinTransformer通过引入移位窗口自注意力机制改善了这一问题,但窗口化注意力的局部特性限制了其感受野。为了解决ViT的不足,研究提出了CNN-Transformer混合网络,但标准卷积的静态性质与自注意力的动态计算能力存在差异,削弱了模型的表示能力。通过有效感受野(ERF)分析,发现全局自注意力能够扩大模型的ERF,而将动态卷积与全局自注意力结合可以进一步扩展

2025-05-16 10:24:04 893

原创 YOLO12改进-Backbone-引入MobileNetV4替换backbone,平衡精度与效率的问题

文章探讨了设备端神经网络在移动设备上的优化挑战,特别是如何在有限的计算资源下平衡精度和效率。介绍了MobileNetV4的改进,包括使用Roofline模型评估性能、Universal Inverted Bottleneck(UIB)块的扩展、MobileMQA注意力块的优化,以及两阶段神经架构搜索(NAS)策略。此外,文章还讨论了ShuffleNetv2的改进思路和基本单元结构,以及如何将MobileNetV4与YOLOv12结合,通过StarNet替换YOLOv12的backbone来提升特征提取能力和

2025-05-16 10:11:56 608

原创 YOLO12改进-Backbone-引入基于星运算StarNet替换YOLO原始backbone

在过去十年中,深度学习范式不断演进,自注意力机制在自然语言处理和计算机视觉领域广泛应用,但存在效率不高的问题。近期,星运算作为一种新的学习范式,通过元素乘法融合不同子空间特征,展现出良好的性能与效率。研究人员提出StarNet,验证星运算在高效网络中的有效性。StarNet采用4阶段分层架构,通过修改后的演示块进行特征提取,并优化了归一化和激活函数。将StarNet引入YOLOv12中,替换其backbone,有望在不增加过多计算量的情况下提升特征提取能力,增强对复杂目标的识别精度,同时降低模型整体延迟,提

2025-05-15 15:23:27 749

原创 YOLO11改进-模块-引入空间增强前馈网络SEFN 提高多尺度 遮挡

SEFN 的关键思想是利用从 SEM 块之前的特征表示中提取的空间信息,通过门控机制作用于 SMB 之后的特征,从而将空间感知和长距离依赖学习整合到整个 SEM 块中。通过平均池化扩大感受野,利用 {Conv-LN-ReLU} 块捕捉更广泛的空间感知,再经上采样得到空间感知指标 γ。利用该指标 γ 对 SMB 之后的特征进行调制,增强特征的空间感知能力,以此来补充 SSM 在局部空间信息捕捉上的不足,优化图像修复过程中的空间表示学习。特征获取。

2025-05-15 15:08:22 1525

原创 YOLO11改进-模块-引入Mona Layer 提取多尺度特征

基于人类视觉认知原理,人类眼睛从不同尺度处理视觉信号并整合以更好理解图像。受此启发,Mona Layer 引入多个卷积滤波器,从多个认知视角处理上游特征,增强适配器对视觉知识的处理和传递能力,提升在下游任务中的性能。Mona Layer 添加在 Swin - Block 的 MSA 和 MLP 之后,具体结构如下:输入调整部分。

2025-05-07 07:30:49 1217

原创 YOLO11改进-模块-引入轻量级分组注意力LWGA 动态融合不同层的特征,增强检测精度

LWGA 模块旨在增强遥感图像中多尺度物体的特征表示。它利用特征图中固有的冗余,通过多种特征提取技术处理每个分区。具体包括:点注意力(GPA):利用点注意力原理,优先关注微小物体的特征,通过通道扩展、激活函数处理和通道恢复等操作,生成注意力图,与原始特征结合,保留传统方法易忽略的细微差异。局部注意力(RLA):借鉴标准卷积的固有能力,通过特定卷积操作有效提取局部特征,对规则形状物体的特征提取效果较好。中距离注意力(SMA)

2025-05-07 07:29:33 1275

原创 YOLO11改进-模块-引入结构感知视觉状态空间模块SAVSS 提高对可变的目标的检测精度

SAVSS 旨在解决现有方法在裂缝图像分割中的不足,其理论基础主要包括对裂缝纹理和拓扑结构的有效感知以及信息的高效处理。通过设计特定的扫描策略和模块结构,增强对不规则裂缝纹理的感知能力,同时降低计算资源需求。结构感知扫描策略(SASS):SASS 由四条路径组成,包括两条平行蛇形路径和两条对角蛇形路径。这种设计灵感来源于裂缝在实际图像中的复杂形态,能够在规则裂缝区域有效提取连续语义信息,同时在多个方向上保持纹理连续性,适应复杂背景下的多场景裂缝图像。

2025-05-06 10:31:10 315

原创 YOLO12改进-C3K2模块改进-引入离散余弦变换DCT 减少噪声提取图像的细节、边缘和纹理等微观特征

​DCT 是傅里叶变换的特殊形式,只使用余弦函数作为基函数,能把信号从空间域转换到频率域。它具有正交性和能量集中特性,可将图像中的大部分能量集中到低频部分。从提供的图片来看,DCT低频成分:对应图像的平滑区域和整体结构(如背景、大面积色块),决定图像的宏观语义。高频成分:对应图像的细节、边缘和纹理(如物体轮廓、噪声),反映微观特征。典型处理流程​​​​​​​将图像分割为小块(如 8×8 像素)。对每个小块进行 DCT 变换,得到频率域系数矩阵(左上角为低频,右下角为高频)

2025-05-06 10:30:26 1013

原创 YOLO12改进-模块-引入边缘 - 高斯聚合模块EGA 适用于小目标、遮挡和低光照等领域

边缘先验(Edge Priors)Scharr 算子:一种改进的 Sobel 边缘检测算子,对边缘方向更敏感,具有旋转不变性,能有效提取高频边缘细节。通过水平(Sx​)和垂直(Sy​)方向的卷积核,计算边缘响应的欧氏范数,生成边缘注意力图 Aedge​,增强目标边界的清晰度。应用场景:适用于图像浅层(Stage 1),此时特征图分辨率较高,保留丰富的边缘细节,适合定位目标轮廓。高斯建模(Gaussian Modeling)​​​​​​​不确定性感知。

2025-04-30 11:17:02 1337 1

原创 YOLO11改进-模块-引入跨模态注意力机制CMA 提高多尺度 遮挡

CMA 基于注意力机制理论,通过对不同模态信息进行交互和融合,使模型能够聚焦于与当前任务相关的关键信息。在驾驶场景中,利用 CLIP 模型提取的语义信息和骨干网络提取的图像信息,计算不同通道之间的注意力权重,以此衡量不同信息对最终结果的影响程度,从而实现跨模态信息的有效融合,更好地指导驾驶员注意力的预测。例如,当行人准备过马路时,模型能依据语义信息将注意力分配到行人身上,提高对潜在危险的感知能力。

2025-04-30 11:15:52 1197

原创 YOLO12改进-模块-引入边缘 - 可学习局部显著核模块LLSKM 引导网络捕捉小目标的点、边缘等显著特征,提升检测敏感性与多尺度适应性。

中心减邻域” 原理:模拟人类视觉系统对显著目标的感知机制,通过中心像素与邻域像素的差异(如拉普拉斯高斯核 LoG)突出目标的点或边缘特征,核心公式为中心权重与邻域权重的差值运算。可学习参数与注意力机制:将传统固定参数(如抑制因子 θ)替换为可学习参数,通过全局通道注意力模块动态调整不同通道的特征响应,使核函数自适应输入数据的显著特征(如自动区分边缘或点状目标)。

2025-04-29 13:45:29 840

原创 YOLO12改进-模块-引入基于隐藏状态混合器的状态空间对偶HSM-SSD 用于高效捕获全局依赖

HSM-SSD 对 NC-SSD 进行了结构优化。在 NC-SSD 层中,计算过程包含线性变换、离散化、深度可分离卷积(DWConv)等操作。HSM-SSD 在计算共享全局隐藏状态 h 时,先对输入进行线性投影到隐藏状态空间,减少计算量。之后,隐藏状态混合器(HSM)直接在压缩后的隐藏状态 h 上进行通道混合操作,包括门控和输出投影,避免了在原始高维特征空间进行这些操作带来的高计算成本。这种结构调整使得 HSM-SSD 在降低计算成本的同时,能够有效捕获全局上下文信息,提升模型性能。​。

2025-04-29 13:44:51 613

原创 YOLO12改进-模块-引入HaloNet 局部自注意力HaloNet local self-attention 自注意力机制轻量化

分块局部自注意力(Blocked Local Self-Attention)该方法将计算复杂度从 O (N²) 降至 O (B²),同时通过 Halo 区域实现跨块信息传递,平衡了局部细节与全局上下文。分块策略:将图像划分为 B×B 的非重叠块,每个块作为查询区域(Query Block)。Halo 区域扩展:每个查询块周围扩展 H×H 的 Halo 区域,形成 (B+2H)×(B+2H) 的邻域块(Key/Value Block)。Halo 区域允许相邻块的信息交互,扩大感受野。注意力计算。

2025-04-28 10:46:35 1044

原创 一文教你如何使用双backbone改进,快速发论文

在CV领域,Backbone 是模型性能的基石。而**双Backbone结构(Dual-Backbone)**的引入,带来了显著的优势,具体来说,双Backbone具备以下优点:特征表达更丰富:两条不同特性的Backbone可以提取互补的信息,兼顾局部细节和全局感知。更强的多尺度建模能力:双路径自然涵盖不同尺度特征,对小目标、大目标都更友好。提升模型鲁棒性:不同路径的特征互补,能够增强模型在复杂环境下的稳定性和泛化能力。灵活的特征融合方式:通过拼接、加权、注意力机制等方式,可以进一步提升特征利用率。适配多样

2025-04-28 09:26:25 1410

原创 YOLO11改进-Backbone-引入基于星运算(element-wise multiplication)的高效神经网络模型StarNet替换backbone

星运算能够将输入映射到高维非线性特征空间,类似于核技巧。在单隐藏层神经网络中,星运算可重写为多项求和形式,能扩展出约(2​d​)2个线性独立维度,在不增加计算开销的情况下显著扩大特征维度。通过堆叠多层星运算,可指数级增加隐式维度,使网络能在低维空间计算的同时获得高维特征表示,这一特性使星运算适合用于高效网络设计。从提供的图片来看,StarNetStarNet 采用 4 阶段分层架构,使用卷积层进行下采样,通过修改后的演示块(demo block)进行特征提取。

2025-04-26 07:54:47 968 1

原创 YOLOv12 改进有效系列目录 - 包含卷积、主干、检测头、注意力机制、Neck上百种创新机制 - 针对多尺度、小目标、遮挡、复杂环境、噪声等问题!

在 YOLO 系列一路狂飙之后,YOLOv12 带来了令人耳目一新的范式转变——它不再以 CNN 为绝对核心,而是首次,在保证实时性的前提下,将检测精度再次推向新高度!为了进一步探索其性能潜力,我在 YOLOv12 的基础上进行了系统性改进与重构,涉及特征提取、注意力机制、特征融合、结构连接、检测头设计等多个维度,总计超过一百多种优化点。本专栏将对这些模块进行逐一拆解与分享。

2025-04-26 00:07:29 1875

原创 YOLO训练时到底需不需要使用权重

通常建议使用预训练权重,特别是当数据量较少时,它能提供稳定的特征表示。但如果模型修改幅度较大,比如更换 Backbone 或检测头,则原始权重可能不再适用,需要重新训练新的预训练权重。冻结训练(Frozen Training)指的是在训练初期固定部分网络参数(通常是 Backbone),仅训练特定层(如检测头)。作用:提高训练稳定性,减少梯度剧烈波动。加快训练速度,降低计算成本。防止过拟合,尤其适用于小数据集训练。

2025-04-24 21:25:37 979

原创 YOLOv11改进-双Backbone架构:利用双backbone提高yolo11目标检测的精度

YOLOv11 的 Backbone 基于 CSPNet 的改进版本,通过引入 C3K2 模块、C2PSA等进一步优化了特征流的传递效率,同时减少冗余计算,提高了模型的参数利用率。目前主流的设计路径主要包括三类:CNN 与 CNN 的轻量级组合、CNN 与 Transformer 的语义增强组合,以及 CNN 与 Mamba 的状态建模组合。同时使用CNN+CNN双backbone的网络结构中,可以对CNN结构进行改进,如再其中一个分支中添加频域、注意力机制等操作,增强模型的边缘、语义特征等。

2025-04-24 08:28:21 2388

原创 YOLO11改进-Backbone-引入OverLoCK替换YOLO backbone 融合自上而下注意力机制,实现高效的长程依赖建模与局部细节捕捉,同时平衡计算复杂度与性能

OverLoCK 的理论核心是模拟人类视觉系统的自上而下注意力机制Base-Net提取中低层特征,通过粗粒度全局建模生成动态语义先验(模拟 “先概览” 过程),Focus-Net在全局先验引导下进行精细化特征感知(模拟 “后精修” 过程)。结合上下文混合动态卷积(ContMix),通过计算输入特征与全局区域中心的亲和度生成动态卷积核,使每个像素的卷积操作融合全局语义信息,既突破传统卷积的固定核限制以建模长程依赖,又保留局部归纳偏置捕捉细节。

2025-04-23 13:44:32 1385

原创 YOLO11改进-Backbone-引入TransXNet替换YOLO backbone 学习全局和局部动态信息,提高检测精度

D - Mixer 动态特征聚合:D - Mixer 将输入特征图沿通道维度均分为两个子特征图,分别由 OSRA 和 IDConv 处理,OSRA 用于捕捉全局信息,IDConv 用于提取局部特征,两者输出拼接后经 STE 聚合,这种方式使模型能根据输入动态聚合全局和局部信息,增强表示能力。IDConv 动态卷积:IDConv 通过自适应平均池化聚合空间上下文,经卷积生成注意力图,再经 softmax 等操作生成与输入相关的卷积核。

2025-04-23 13:43:41 993

原创 YOLO11改进-Backbone-引入MobileNetV4替换backbone,平衡精度与效率的问题

Roofline 模型:用于评估模型在不同硬件上的性能,通过计算操作强度与硬件处理器和内存系统理论极限的关系,判断模型是受内存还是计算瓶颈限制,公式为ModelTime=∑i​max(MACTimei​,MemTimei​),其中MACTimei​=PeakMACsLayerMACsi​​,MemTimei​=PeakMemBWWeightBytesi​+ActivationBytesi​​。通过分析不同 Ridge Point(RP)下模型的延迟和精度,为模型设计提供指导。

2025-04-22 07:09:32 1623

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除