2025年04月_一勺汤

原创 YOLO12改进-模块-引入边缘 - 高斯聚合模块EGA 适用于小目标、遮挡和低光照等领域

边缘先验（Edge Priors）Scharr 算子：一种改进的 Sobel 边缘检测算子，对边缘方向更敏感，具有旋转不变性，能有效提取高频边缘细节。通过水平（Sx）和垂直（Sy）方向的卷积核，计算边缘响应的欧氏范数，生成边缘注意力图 Aedge，增强目标边界的清晰度。应用场景：适用于图像浅层（Stage 1），此时特征图分辨率较高，保留丰富的边缘细节，适合定位目标轮廓。高斯建模（Gaussian Modeling）不确定性感知。

2025-04-30 11:17:02 1098

原创 YOLO11改进-模块-引入跨模态注意力机制CMA 提高多尺度遮挡

CMA 基于注意力机制理论，通过对不同模态信息进行交互和融合，使模型能够聚焦于与当前任务相关的关键信息。在驾驶场景中，利用 CLIP 模型提取的语义信息和骨干网络提取的图像信息，计算不同通道之间的注意力权重，以此衡量不同信息对最终结果的影响程度，从而实现跨模态信息的有效融合，更好地指导驾驶员注意力的预测。例如，当行人准备过马路时，模型能依据语义信息将注意力分配到行人身上，提高对潜在危险的感知能力。

2025-04-30 11:15:52 863

原创 YOLO12改进-模块-引入边缘 - 可学习局部显著核模块LLSKM 引导网络捕捉小目标的点、边缘等显著特征，提升检测敏感性与多尺度适应性。

中心减邻域” 原理：模拟人类视觉系统对显著目标的感知机制，通过中心像素与邻域像素的差异（如拉普拉斯高斯核 LoG）突出目标的点或边缘特征，核心公式为中心权重与邻域权重的差值运算。可学习参数与注意力机制：将传统固定参数（如抑制因子 θ）替换为可学习参数，通过全局通道注意力模块动态调整不同通道的特征响应，使核函数自适应输入数据的显著特征（如自动区分边缘或点状目标）。

2025-04-29 13:45:29 729

原创 YOLO12改进-模块-引入基于隐藏状态混合器的状态空间对偶HSM-SSD 用于高效捕获全局依赖

HSM-SSD 对 NC-SSD 进行了结构优化。在 NC-SSD 层中，计算过程包含线性变换、离散化、深度可分离卷积（DWConv）等操作。HSM-SSD 在计算共享全局隐藏状态 h 时，先对输入进行线性投影到隐藏状态空间，减少计算量。之后，隐藏状态混合器（HSM）直接在压缩后的隐藏状态 h 上进行通道混合操作，包括门控和输出投影，避免了在原始高维特征空间进行这些操作带来的高计算成本。这种结构调整使得 HSM-SSD 在降低计算成本的同时，能够有效捕获全局上下文信息，提升模型性能。。

2025-04-29 13:44:51 527

原创 YOLO12改进-模块-引入HaloNet 局部自注意力HaloNet local self-attention 自注意力机制轻量化

分块局部自注意力（Blocked Local Self-Attention）该方法将计算复杂度从 O (N²) 降至 O (B²)，同时通过 Halo 区域实现跨块信息传递，平衡了局部细节与全局上下文。分块策略：将图像划分为 B×B 的非重叠块，每个块作为查询区域（Query Block）。Halo 区域扩展：每个查询块周围扩展 H×H 的 Halo 区域，形成 (B+2H)×(B+2H) 的邻域块（Key/Value Block）。Halo 区域允许相邻块的信息交互，扩大感受野。注意力计算。

2025-04-28 10:46:35 901

原创一文教你如何使用双backbone改进，快速发论文

在CV领域，Backbone 是模型性能的基石。而**双Backbone结构（Dual-Backbone）**的引入，带来了显著的优势，具体来说，双Backbone具备以下优点：特征表达更丰富：两条不同特性的Backbone可以提取互补的信息，兼顾局部细节和全局感知。更强的多尺度建模能力：双路径自然涵盖不同尺度特征，对小目标、大目标都更友好。提升模型鲁棒性：不同路径的特征互补，能够增强模型在复杂环境下的稳定性和泛化能力。灵活的特征融合方式：通过拼接、加权、注意力机制等方式，可以进一步提升特征利用率。适配多样

2025-04-28 09:26:25 1144

原创 YOLO11改进-Backbone-引入基于星运算（element-wise multiplication）的高效神经网络模型StarNet替换backbone

星运算能够将输入映射到高维非线性特征空间，类似于核技巧。在单隐藏层神经网络中，星运算可重写为多项求和形式，能扩展出约(2d)2个线性独立维度，在不增加计算开销的情况下显著扩大特征维度。通过堆叠多层星运算，可指数级增加隐式维度，使网络能在低维空间计算的同时获得高维特征表示，这一特性使星运算适合用于高效网络设计。从提供的图片来看，StarNetStarNet 采用 4 阶段分层架构，使用卷积层进行下采样，通过修改后的演示块（demo block）进行特征提取。

2025-04-26 07:54:47 796 1

原创 YOLOv12 改进有效系列目录 - 包含卷积、主干、检测头、注意力机制、Neck上百种创新机制 - 针对多尺度、小目标、遮挡、复杂环境、噪声等问题！

在 YOLO 系列一路狂飙之后，YOLOv12 带来了令人耳目一新的范式转变——它不再以 CNN 为绝对核心，而是首次，在保证实时性的前提下，将检测精度再次推向新高度！为了进一步探索其性能潜力，我在 YOLOv12 的基础上进行了系统性改进与重构，涉及特征提取、注意力机制、特征融合、结构连接、检测头设计等多个维度，总计超过一百多种优化点。本专栏将对这些模块进行逐一拆解与分享。

2025-04-26 00:07:29 1021

原创 YOLO训练时到底需不需要使用权重

通常建议使用预训练权重，特别是当数据量较少时，它能提供稳定的特征表示。但如果模型修改幅度较大，比如更换 Backbone 或检测头，则原始权重可能不再适用，需要重新训练新的预训练权重。冻结训练（Frozen Training）指的是在训练初期固定部分网络参数（通常是 Backbone），仅训练特定层（如检测头）。作用：提高训练稳定性，减少梯度剧烈波动。加快训练速度，降低计算成本。防止过拟合，尤其适用于小数据集训练。

2025-04-24 21:25:37 506

原创 YOLOv11改进-双Backbone架构：利用双backbone提高yolo11目标检测的精度

YOLOv11 的 Backbone 基于 CSPNet 的改进版本，通过引入 C3K2 模块、C2PSA等进一步优化了特征流的传递效率，同时减少冗余计算，提高了模型的参数利用率。目前主流的设计路径主要包括三类：CNN 与 CNN 的轻量级组合、CNN 与 Transformer 的语义增强组合，以及 CNN 与 Mamba 的状态建模组合。同时使用CNN+CNN双backbone的网络结构中，可以对CNN结构进行改进，如再其中一个分支中添加频域、注意力机制等操作，增强模型的边缘、语义特征等。

2025-04-24 08:28:21 1665

原创 YOLO11改进-Backbone-引入OverLoCK替换YOLO backbone 融合自上而下注意力机制，实现高效的长程依赖建模与局部细节捕捉，同时平衡计算复杂度与性能

OverLoCK 的理论核心是模拟人类视觉系统的自上而下注意力机制Base-Net提取中低层特征，通过粗粒度全局建模生成动态语义先验（模拟 “先概览” 过程），Focus-Net在全局先验引导下进行精细化特征感知（模拟 “后精修” 过程）。结合上下文混合动态卷积（ContMix），通过计算输入特征与全局区域中心的亲和度生成动态卷积核，使每个像素的卷积操作融合全局语义信息，既突破传统卷积的固定核限制以建模长程依赖，又保留局部归纳偏置捕捉细节。

2025-04-23 13:44:32 1086

原创 YOLO11改进-Backbone-引入TransXNet替换YOLO backbone 学习全局和局部动态信息，提高检测精度

D - Mixer 动态特征聚合：D - Mixer 将输入特征图沿通道维度均分为两个子特征图，分别由 OSRA 和 IDConv 处理，OSRA 用于捕捉全局信息，IDConv 用于提取局部特征，两者输出拼接后经 STE 聚合，这种方式使模型能根据输入动态聚合全局和局部信息，增强表示能力。IDConv 动态卷积：IDConv 通过自适应平均池化聚合空间上下文，经卷积生成注意力图，再经 softmax 等操作生成与输入相关的卷积核。

2025-04-23 13:43:41 701

原创 YOLO11改进-Backbone-引入MobileNetV4替换backbone，平衡精度与效率的问题

Roofline 模型：用于评估模型在不同硬件上的性能，通过计算操作强度与硬件处理器和内存系统理论极限的关系，判断模型是受内存还是计算瓶颈限制，公式为ModelTime=∑imax(MACTimei,MemTimei)，其中MACTimei=PeakMACsLayerMACsi，MemTimei=PeakMemBWWeightBytesi+ActivationBytesi。通过分析不同 Ridge Point（RP）下模型的延迟和精度，为模型设计提供指导。

2025-04-22 07:09:32 1217

原创 YOLO11改进-Backbone-引入Swin Transformer替换backbone，利用自注意力机制获取上下文信息

基于移位窗口的自注意力计算：标准 Transformer 的全局自注意力计算复杂度与令牌数量呈二次关系，不适用于许多视觉任务。Swin Transformer 提出在局部窗口内计算自注意力，将窗口均匀划分图像且互不重叠，降低计算复杂度。同时，采用移位窗口分区方法，在连续的 Swin Transformer 块中交替使用两种分区配置，引入跨窗口连接，增强模型建模能力。相对位置偏差：在计算自注意力时，引入相对位置偏差，为每个头计算相似度时加入相对位置偏差矩阵B。

2025-04-22 07:08:45 997

原创 YOLO11改进-Backbone-引入ShuffleNet v1替换backbone，实现轻量化

逐点分组卷积（Pointwise Group Convolution）：为降低 1×1 卷积的计算复杂度，在 1×1 层应用分组卷积，使每个卷积仅在相应输入通道组上操作，减少计算量。通道混洗（Channel Shuffle）：分组卷积虽减少计算量，但会导致信息在通道组间流动受限。通道混洗操作通过重新排列通道，使后续卷积层能从不同组获取输入数据，增强信息交流。具体实现是将卷积层输出通道维度重塑、转置后再展平作为下一层输入，且该操作可微，能用于端到端训练。

2025-04-21 09:12:48 564

原创 YOLO11改进-Backbone-引入ShuffleNet v2替换backbone，实现轻量化

ShuffleNet V2 的原理基于对传统计算复杂度指标 FLOPs 局限性的认识，提出应使用直接指标（如速度）并在目标平台进行评估。通过分析 ShuffleNet v1 和 MobileNet v2 的运行时性能，得出四条实用设计准则：相等通道宽度可最小化内存访问成本，过度组卷积会增加成本，网络碎片化降低并行度，元素 - wise 操作不可忽视。ShuffleNet V2 依此进行设计，引入通道分割，优化卷积和连接方式，减少元素 - wise 操作，既提升模型容量，又提高效率，实现速度和精度的良好平衡。

2025-04-21 09:12:17 1263

原创 YOLO11改进-Backbone-使用MobileMamba替换YOLO backbone 提高检测精度

SSA 的核心理论是通过计算不同序列对应通道内的注意力权重，来聚合处理后的序列。这种设计能够捕捉不同序列间的复杂依赖关系。其理论基础源于注意力机制在深度学习中的广泛应用，注意力机制可以让模型更加关注重要的信息。在 SSA 中，通过对不同序列特征的处理和分析，计算出每个序列在不同通道上的重要程度，即注意力权重，然后根据这些权重对序列进行加权求和，从而实现对不同序列信息的有效整合。状态空间模型（SSM）与 Mamba 基础Mamba 的长距离建模。

2025-04-19 22:56:56 1577

原创 YOLO11改进-模块-引入序列混洗注意力模块SSA 提高多尺度遮挡

SSA 的核心理论是通过计算不同序列对应通道内的注意力权重，来聚合处理后的序列。这种设计能够捕捉不同序列间的复杂依赖关系。其理论基础源于注意力机制在深度学习中的广泛应用，注意力机制可以让模型更加关注重要的信息。在 SSA 中，通过对不同序列特征的处理和分析，计算出每个序列在不同通道上的重要程度，即注意力权重，然后根据这些权重对序列进行加权求和，从而实现对不同序列信息的有效整合。序列混洗注意力（SSA）模块是 MaIR 模型的关键组件，主要用于聚合处理后的序列，从而更好地利用不同扫描方向的互补信息。

2025-04-17 09:35:12 1048

原创 YOLO11改进-模块-引入令牌统计自注意力TSSA 提高多尺度遮挡

基于最大编码率降低（MCR2 ）和白盒架构设计理论，推导新型注意力机制。表示学习与最大编码率降低（MCR2 ）：现实数据常具高维概率分布下的低维结构，Transformer 通过找到合适的表示映射，将数据转换为适合任务的特征。MCR2 目标旨在通过寻找不同组 token 特征的压缩与扩展平衡，挖掘数据潜在低维结构。其目标函数由扩展项和压缩项组成，分别衡量所有特征的扩展程度和各分组特征的压缩程度。白盒深度网络与算法展开：白盒架构设计通过算法展开构建网络，将网络层操作解释为优化目标函数的增量更新步骤。

2025-04-17 09:34:09 1137

qq_64693987的博客