自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 YOLO12改进-模块-引入边缘 - 高斯聚合模块EGA 适用于小目标、遮挡和低光照等领域

边缘先验(Edge Priors)Scharr 算子:一种改进的 Sobel 边缘检测算子,对边缘方向更敏感,具有旋转不变性,能有效提取高频边缘细节。通过水平(Sx​)和垂直(Sy​)方向的卷积核,计算边缘响应的欧氏范数,生成边缘注意力图 Aedge​,增强目标边界的清晰度。应用场景:适用于图像浅层(Stage 1),此时特征图分辨率较高,保留丰富的边缘细节,适合定位目标轮廓。高斯建模(Gaussian Modeling)​​​​​​​不确定性感知。

2025-04-30 11:17:02 1098

原创 YOLO11改进-模块-引入跨模态注意力机制CMA 提高多尺度 遮挡

CMA 基于注意力机制理论,通过对不同模态信息进行交互和融合,使模型能够聚焦于与当前任务相关的关键信息。在驾驶场景中,利用 CLIP 模型提取的语义信息和骨干网络提取的图像信息,计算不同通道之间的注意力权重,以此衡量不同信息对最终结果的影响程度,从而实现跨模态信息的有效融合,更好地指导驾驶员注意力的预测。例如,当行人准备过马路时,模型能依据语义信息将注意力分配到行人身上,提高对潜在危险的感知能力。

2025-04-30 11:15:52 863

原创 YOLO12改进-模块-引入边缘 - 可学习局部显著核模块LLSKM 引导网络捕捉小目标的点、边缘等显著特征,提升检测敏感性与多尺度适应性。

中心减邻域” 原理:模拟人类视觉系统对显著目标的感知机制,通过中心像素与邻域像素的差异(如拉普拉斯高斯核 LoG)突出目标的点或边缘特征,核心公式为中心权重与邻域权重的差值运算。可学习参数与注意力机制:将传统固定参数(如抑制因子 θ)替换为可学习参数,通过全局通道注意力模块动态调整不同通道的特征响应,使核函数自适应输入数据的显著特征(如自动区分边缘或点状目标)。

2025-04-29 13:45:29 729

原创 YOLO12改进-模块-引入基于隐藏状态混合器的状态空间对偶HSM-SSD 用于高效捕获全局依赖

HSM-SSD 对 NC-SSD 进行了结构优化。在 NC-SSD 层中,计算过程包含线性变换、离散化、深度可分离卷积(DWConv)等操作。HSM-SSD 在计算共享全局隐藏状态 h 时,先对输入进行线性投影到隐藏状态空间,减少计算量。之后,隐藏状态混合器(HSM)直接在压缩后的隐藏状态 h 上进行通道混合操作,包括门控和输出投影,避免了在原始高维特征空间进行这些操作带来的高计算成本。这种结构调整使得 HSM-SSD 在降低计算成本的同时,能够有效捕获全局上下文信息,提升模型性能。​。

2025-04-29 13:44:51 527

原创 YOLO12改进-模块-引入HaloNet 局部自注意力HaloNet local self-attention 自注意力机制轻量化

分块局部自注意力(Blocked Local Self-Attention)该方法将计算复杂度从 O (N²) 降至 O (B²),同时通过 Halo 区域实现跨块信息传递,平衡了局部细节与全局上下文。分块策略:将图像划分为 B×B 的非重叠块,每个块作为查询区域(Query Block)。Halo 区域扩展:每个查询块周围扩展 H×H 的 Halo 区域,形成 (B+2H)×(B+2H) 的邻域块(Key/Value Block)。Halo 区域允许相邻块的信息交互,扩大感受野。注意力计算。

2025-04-28 10:46:35 901

原创 一文教你如何使用双backbone改进,快速发论文

在CV领域,Backbone 是模型性能的基石。而**双Backbone结构(Dual-Backbone)**的引入,带来了显著的优势,具体来说,双Backbone具备以下优点:特征表达更丰富:两条不同特性的Backbone可以提取互补的信息,兼顾局部细节和全局感知。更强的多尺度建模能力:双路径自然涵盖不同尺度特征,对小目标、大目标都更友好。提升模型鲁棒性:不同路径的特征互补,能够增强模型在复杂环境下的稳定性和泛化能力。灵活的特征融合方式:通过拼接、加权、注意力机制等方式,可以进一步提升特征利用率。适配多样

2025-04-28 09:26:25 1144

原创 YOLO11改进-Backbone-引入基于星运算(element-wise multiplication)的高效神经网络模型StarNet替换backbone

星运算能够将输入映射到高维非线性特征空间,类似于核技巧。在单隐藏层神经网络中,星运算可重写为多项求和形式,能扩展出约(2​d​)2个线性独立维度,在不增加计算开销的情况下显著扩大特征维度。通过堆叠多层星运算,可指数级增加隐式维度,使网络能在低维空间计算的同时获得高维特征表示,这一特性使星运算适合用于高效网络设计。从提供的图片来看,StarNetStarNet 采用 4 阶段分层架构,使用卷积层进行下采样,通过修改后的演示块(demo block)进行特征提取。

2025-04-26 07:54:47 796 1

原创 YOLOv12 改进有效系列目录 - 包含卷积、主干、检测头、注意力机制、Neck上百种创新机制 - 针对多尺度、小目标、遮挡、复杂环境、噪声等问题!

在 YOLO 系列一路狂飙之后,YOLOv12 带来了令人耳目一新的范式转变——它不再以 CNN 为绝对核心,而是首次,在保证实时性的前提下,将检测精度再次推向新高度!为了进一步探索其性能潜力,我在 YOLOv12 的基础上进行了系统性改进与重构,涉及特征提取、注意力机制、特征融合、结构连接、检测头设计等多个维度,总计超过一百多种优化点。本专栏将对这些模块进行逐一拆解与分享。

2025-04-26 00:07:29 1021

原创 YOLO训练时到底需不需要使用权重

通常建议使用预训练权重,特别是当数据量较少时,它能提供稳定的特征表示。但如果模型修改幅度较大,比如更换 Backbone 或检测头,则原始权重可能不再适用,需要重新训练新的预训练权重。冻结训练(Frozen Training)指的是在训练初期固定部分网络参数(通常是 Backbone),仅训练特定层(如检测头)。作用:提高训练稳定性,减少梯度剧烈波动。加快训练速度,降低计算成本。防止过拟合,尤其适用于小数据集训练。

2025-04-24 21:25:37 506

原创 YOLOv11改进-双Backbone架构:利用双backbone提高yolo11目标检测的精度

YOLOv11 的 Backbone 基于 CSPNet 的改进版本,通过引入 C3K2 模块、C2PSA等进一步优化了特征流的传递效率,同时减少冗余计算,提高了模型的参数利用率。目前主流的设计路径主要包括三类:CNN 与 CNN 的轻量级组合、CNN 与 Transformer 的语义增强组合,以及 CNN 与 Mamba 的状态建模组合。同时使用CNN+CNN双backbone的网络结构中,可以对CNN结构进行改进,如再其中一个分支中添加频域、注意力机制等操作,增强模型的边缘、语义特征等。

2025-04-24 08:28:21 1665

原创 YOLO11改进-Backbone-引入OverLoCK替换YOLO backbone 融合自上而下注意力机制,实现高效的长程依赖建模与局部细节捕捉,同时平衡计算复杂度与性能

OverLoCK 的理论核心是模拟人类视觉系统的自上而下注意力机制Base-Net提取中低层特征,通过粗粒度全局建模生成动态语义先验(模拟 “先概览” 过程),Focus-Net在全局先验引导下进行精细化特征感知(模拟 “后精修” 过程)。结合上下文混合动态卷积(ContMix),通过计算输入特征与全局区域中心的亲和度生成动态卷积核,使每个像素的卷积操作融合全局语义信息,既突破传统卷积的固定核限制以建模长程依赖,又保留局部归纳偏置捕捉细节。

2025-04-23 13:44:32 1086

原创 YOLO11改进-Backbone-引入TransXNet替换YOLO backbone 学习全局和局部动态信息,提高检测精度

D - Mixer 动态特征聚合:D - Mixer 将输入特征图沿通道维度均分为两个子特征图,分别由 OSRA 和 IDConv 处理,OSRA 用于捕捉全局信息,IDConv 用于提取局部特征,两者输出拼接后经 STE 聚合,这种方式使模型能根据输入动态聚合全局和局部信息,增强表示能力。IDConv 动态卷积:IDConv 通过自适应平均池化聚合空间上下文,经卷积生成注意力图,再经 softmax 等操作生成与输入相关的卷积核。

2025-04-23 13:43:41 701

原创 YOLO11改进-Backbone-引入MobileNetV4替换backbone,平衡精度与效率的问题

Roofline 模型:用于评估模型在不同硬件上的性能,通过计算操作强度与硬件处理器和内存系统理论极限的关系,判断模型是受内存还是计算瓶颈限制,公式为ModelTime=∑i​max(MACTimei​,MemTimei​),其中MACTimei​=PeakMACsLayerMACsi​​,MemTimei​=PeakMemBWWeightBytesi​+ActivationBytesi​​。通过分析不同 Ridge Point(RP)下模型的延迟和精度,为模型设计提供指导。

2025-04-22 07:09:32 1217

原创 YOLO11改进-Backbone-引入Swin Transformer替换backbone,利用自注意力机制获取上下文信息

基于移位窗口的自注意力计算:标准 Transformer 的全局自注意力计算复杂度与令牌数量呈二次关系,不适用于许多视觉任务。Swin Transformer 提出在局部窗口内计算自注意力,将窗口均匀划分图像且互不重叠,降低计算复杂度。同时,采用移位窗口分区方法,在连续的 Swin Transformer 块中交替使用两种分区配置,引入跨窗口连接,增强模型建模能力。相对位置偏差:在计算自注意力时,引入相对位置偏差,为每个头计算相似度时加入相对位置偏差矩阵B。

2025-04-22 07:08:45 997

原创 YOLO11改进-Backbone-引入ShuffleNet v1替换backbone,实现轻量化

逐点分组卷积(Pointwise Group Convolution):为降低 1×1 卷积的计算复杂度,在 1×1 层应用分组卷积,使每个卷积仅在相应输入通道组上操作,减少计算量。通道混洗(Channel Shuffle):分组卷积虽减少计算量,但会导致信息在通道组间流动受限。通道混洗操作通过重新排列通道,使后续卷积层能从不同组获取输入数据,增强信息交流。具体实现是将卷积层输出通道维度重塑、转置后再展平作为下一层输入,且该操作可微,能用于端到端训练。

2025-04-21 09:12:48 564

原创 YOLO11改进-Backbone-引入ShuffleNet v2替换backbone,实现轻量化

ShuffleNet V2 的原理基于对传统计算复杂度指标 FLOPs 局限性的认识,提出应使用直接指标(如速度)并在目标平台进行评估。通过分析 ShuffleNet v1 和 MobileNet v2 的运行时性能,得出四条实用设计准则:相等通道宽度可最小化内存访问成本,过度组卷积会增加成本,网络碎片化降低并行度,元素 - wise 操作不可忽视。ShuffleNet V2 依此进行设计,引入通道分割,优化卷积和连接方式,减少元素 - wise 操作,既提升模型容量,又提高效率,实现速度和精度的良好平衡。

2025-04-21 09:12:17 1263

原创 YOLO11改进-Backbone-使用MobileMamba替换YOLO backbone 提高检测精度

SSA 的核心理论是通过计算不同序列对应通道内的注意力权重,来聚合处理后的序列。这种设计能够捕捉不同序列间的复杂依赖关系。其理论基础源于注意力机制在深度学习中的广泛应用,注意力机制可以让模型更加关注重要的信息。在 SSA 中,通过对不同序列特征的处理和分析,计算出每个序列在不同通道上的重要程度,即注意力权重,然后根据这些权重对序列进行加权求和,从而实现对不同序列信息的有效整合。状态空间模型(SSM)与 Mamba 基础Mamba 的长距离建模。

2025-04-19 22:56:56 1577

原创 YOLO11改进-模块-引入序列混洗注意力模块SSA 提高多尺度 遮挡

SSA 的核心理论是通过计算不同序列对应通道内的注意力权重,来聚合处理后的序列。这种设计能够捕捉不同序列间的复杂依赖关系。其理论基础源于注意力机制在深度学习中的广泛应用,注意力机制可以让模型更加关注重要的信息。在 SSA 中,通过对不同序列特征的处理和分析,计算出每个序列在不同通道上的重要程度,即注意力权重,然后根据这些权重对序列进行加权求和,从而实现对不同序列信息的有效整合。序列混洗注意力(SSA)模块是 MaIR 模型的关键组件,主要用于聚合处理后的序列,从而更好地利用不同扫描方向的互补信息。

2025-04-17 09:35:12 1048

原创 YOLO11改进-模块-引入令牌统计自注意力TSSA 提高多尺度 遮挡

基于最大编码率降低(MCR2 )和白盒架构设计理论,推导新型注意力机制。表示学习与最大编码率降低(MCR2 ):现实数据常具高维概率分布下的低维结构,Transformer 通过找到合适的表示映射,将数据转换为适合任务的特征。MCR2 目标旨在通过寻找不同组 token 特征的压缩与扩展平衡,挖掘数据潜在低维结构。其目标函数由扩展项和压缩项组成,分别衡量所有特征的扩展程度和各分组特征的压缩程度。白盒深度网络与算法展开:白盒架构设计通过算法展开构建网络,将网络层操作解释为优化目标函数的增量更新步骤。

2025-04-17 09:34:09 1137

原创 YOLO11改进-模块-引入令牌聚合模块TAB 提高小目标 遮挡

基于内容感知的思想,通过计算图像令牌(token)与令牌中心的相似度,将内容相似的令牌聚合在一起。借鉴 Routing Transformer,共享令牌中心并在训练阶段用指数移动平均(EMA)更新,以学习全局令牌中心。基于此,将图像令牌划分为内容相似的组,进而实现更精准的长距离信息交互。主要由四部分构成。Content-Aware Token Aggregation(CATA)模块负责获取初始令牌中心,按相似度划分令牌组,为解决组内令牌数量不均衡问题还会进一步划分子组,提升并行效率。

2025-04-14 09:17:00 1015

原创 YOLO11改进-模块-引入核选择融合注意力KSFA 增大感受野,提高多尺度 小目标检测能力

KSFA 通过一系列操作实现对多尺度特征的选择和融合,以适应不同土地覆盖类型的上下文尺度需求。首先,利用扩张深度卷积构建大感受野获取特征,再通过空间 - 光谱选择机制,根据不同土地覆盖类型的特点,自适应地融合合适感受野大小的特征。在空间选择方面,通过对不同感受野卷积核提取的特征进行拼接、池化和卷积操作,生成空间选择掩码;在光谱选择方面,利用全局平均池化和全连接层生成光谱注意力特征,再通过 softmax 操作得到光谱选择掩码,最终通过矩阵乘法得到空间 - 光谱选择权重,对特征图进行加权融合。

2025-04-14 09:16:03 1127

原创 YOLO11改进-模块-引入Shift module 缓解信息损失和梯度错误问题

通过水平、垂直和混合移位操作,对输入特征进行变换。水平移位将输入特征图向右移动一个像素,垂直移位与之类似,混合移位则从相邻四个令牌中提取特征并替换当前令牌特征。这些操作在通道维度上进行,重复操作和池化操作进一步增强特征融合,最终将移位操作结果与 MLP 层输出相加,缓解信息损失和梯度错误,提升模型性能。2. YOLOv11与。

2025-04-09 09:11:54 664

原创 YOLO11改进-模块-引入门控瓶颈卷积GBC 关注目标抑制背景干扰

GBC 的理论核心是通过低秩近似和门控机制,在减少模型计算量的同时,增强其对裂缝特征的提取能力。在卷积操作中,传统方式计算量较大。GBC 引入瓶颈卷积,采用低秩近似的方法,将高维矩阵映射到低维空间,从而降低计算复杂度。这一操作使得模型在处理裂缝图像时,能更高效地提取特征,同时减少资源消耗。另外,门控机制为每个空间位置和通道赋予动态特征,让模型可以根据不同的裂缝特征进行自适应调整,增强对裂缝细节的捕捉能力,提高分割精度。从提供的图片来看,门控瓶颈卷积GBC。

2025-04-09 09:11:15 907

原创 YOLO11改进-模块-引入可变形交互注意力模块DIA-Module

DIA - Module 基于不同的池化策略生成具有属性差异的特征,通过特定的梯度调整方法利用跨属性的调制系数来重构特征块的形态,减少冗余样本点信息。同时,不同属性特征之间的相互作用促使神经元和可学习参数在训练过程中更多地参与,增强掩码空间特征的表示能力。在 MS 和 PAN 图像融合中,利用 MS 图像在全局和光滑特征方面的优势以及 PAN 图像在纹理细节方面的优势,通过设置不同的梯度缩放因子调整调制系数,实现对不同模态特征的有效融合和增强。从提供的图片来看,DIA。

2025-04-07 12:19:39 1047

原创 YOLO11改进-模块-引入Re - parameterized BatchNorm(RepBN)增强卷积过程中的归一化问题

RepBN 的公式为RepBN(X)=BN(X)+ηX,其中η是可学习参数,与模型其他参数一起端到端训练。RepBN(X;这表明 RepBN 输出分布由α+ησ和β+ημ控制,分别对应方差和均值。通过调整η,RepBN 可灵活控制输出分布,当α=0,β=0时,相当于跳过 BatchNorm;当η=0时,RepBN 变为纯 BatchNorm。2. YOLOv11与。

2025-04-07 12:19:14 952

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除