自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(155)
  • 收藏
  • 关注

原创 YOLO12改进-模块-引入边缘 - 高斯聚合模块EGA 适用于小目标、遮挡和低光照等领域

边缘先验(Edge Priors)Scharr 算子:一种改进的 Sobel 边缘检测算子,对边缘方向更敏感,具有旋转不变性,能有效提取高频边缘细节。通过水平(Sx​)和垂直(Sy​)方向的卷积核,计算边缘响应的欧氏范数,生成边缘注意力图 Aedge​,增强目标边界的清晰度。应用场景:适用于图像浅层(Stage 1),此时特征图分辨率较高,保留丰富的边缘细节,适合定位目标轮廓。高斯建模(Gaussian Modeling)​​​​​​​不确定性感知。

2025-04-30 11:17:02 1095

原创 YOLO11改进-模块-引入跨模态注意力机制CMA 提高多尺度 遮挡

CMA 基于注意力机制理论,通过对不同模态信息进行交互和融合,使模型能够聚焦于与当前任务相关的关键信息。在驾驶场景中,利用 CLIP 模型提取的语义信息和骨干网络提取的图像信息,计算不同通道之间的注意力权重,以此衡量不同信息对最终结果的影响程度,从而实现跨模态信息的有效融合,更好地指导驾驶员注意力的预测。例如,当行人准备过马路时,模型能依据语义信息将注意力分配到行人身上,提高对潜在危险的感知能力。

2025-04-30 11:15:52 854

原创 YOLO12改进-模块-引入边缘 - 可学习局部显著核模块LLSKM 引导网络捕捉小目标的点、边缘等显著特征,提升检测敏感性与多尺度适应性。

中心减邻域” 原理:模拟人类视觉系统对显著目标的感知机制,通过中心像素与邻域像素的差异(如拉普拉斯高斯核 LoG)突出目标的点或边缘特征,核心公式为中心权重与邻域权重的差值运算。可学习参数与注意力机制:将传统固定参数(如抑制因子 θ)替换为可学习参数,通过全局通道注意力模块动态调整不同通道的特征响应,使核函数自适应输入数据的显著特征(如自动区分边缘或点状目标)。

2025-04-29 13:45:29 727

原创 YOLO12改进-模块-引入基于隐藏状态混合器的状态空间对偶HSM-SSD 用于高效捕获全局依赖

HSM-SSD 对 NC-SSD 进行了结构优化。在 NC-SSD 层中,计算过程包含线性变换、离散化、深度可分离卷积(DWConv)等操作。HSM-SSD 在计算共享全局隐藏状态 h 时,先对输入进行线性投影到隐藏状态空间,减少计算量。之后,隐藏状态混合器(HSM)直接在压缩后的隐藏状态 h 上进行通道混合操作,包括门控和输出投影,避免了在原始高维特征空间进行这些操作带来的高计算成本。这种结构调整使得 HSM-SSD 在降低计算成本的同时,能够有效捕获全局上下文信息,提升模型性能。​。

2025-04-29 13:44:51 526

原创 YOLO12改进-模块-引入HaloNet 局部自注意力HaloNet local self-attention 自注意力机制轻量化

分块局部自注意力(Blocked Local Self-Attention)该方法将计算复杂度从 O (N²) 降至 O (B²),同时通过 Halo 区域实现跨块信息传递,平衡了局部细节与全局上下文。分块策略:将图像划分为 B×B 的非重叠块,每个块作为查询区域(Query Block)。Halo 区域扩展:每个查询块周围扩展 H×H 的 Halo 区域,形成 (B+2H)×(B+2H) 的邻域块(Key/Value Block)。Halo 区域允许相邻块的信息交互,扩大感受野。注意力计算。

2025-04-28 10:46:35 900

原创 一文教你如何使用双backbone改进,快速发论文

在CV领域,Backbone 是模型性能的基石。而**双Backbone结构(Dual-Backbone)**的引入,带来了显著的优势,具体来说,双Backbone具备以下优点:特征表达更丰富:两条不同特性的Backbone可以提取互补的信息,兼顾局部细节和全局感知。更强的多尺度建模能力:双路径自然涵盖不同尺度特征,对小目标、大目标都更友好。提升模型鲁棒性:不同路径的特征互补,能够增强模型在复杂环境下的稳定性和泛化能力。灵活的特征融合方式:通过拼接、加权、注意力机制等方式,可以进一步提升特征利用率。适配多样

2025-04-28 09:26:25 1140

原创 YOLO11改进-Backbone-引入基于星运算(element-wise multiplication)的高效神经网络模型StarNet替换backbone

星运算能够将输入映射到高维非线性特征空间,类似于核技巧。在单隐藏层神经网络中,星运算可重写为多项求和形式,能扩展出约(2​d​)2个线性独立维度,在不增加计算开销的情况下显著扩大特征维度。通过堆叠多层星运算,可指数级增加隐式维度,使网络能在低维空间计算的同时获得高维特征表示,这一特性使星运算适合用于高效网络设计。从提供的图片来看,StarNetStarNet 采用 4 阶段分层架构,使用卷积层进行下采样,通过修改后的演示块(demo block)进行特征提取。

2025-04-26 07:54:47 792 1

原创 YOLOv12 改进有效系列目录 - 包含卷积、主干、检测头、注意力机制、Neck上百种创新机制 - 针对多尺度、小目标、遮挡、复杂环境、噪声等问题!

在 YOLO 系列一路狂飙之后,YOLOv12 带来了令人耳目一新的范式转变——它不再以 CNN 为绝对核心,而是首次,在保证实时性的前提下,将检测精度再次推向新高度!为了进一步探索其性能潜力,我在 YOLOv12 的基础上进行了系统性改进与重构,涉及特征提取、注意力机制、特征融合、结构连接、检测头设计等多个维度,总计超过一百多种优化点。本专栏将对这些模块进行逐一拆解与分享。

2025-04-26 00:07:29 1019

原创 YOLO训练时到底需不需要使用权重

通常建议使用预训练权重,特别是当数据量较少时,它能提供稳定的特征表示。但如果模型修改幅度较大,比如更换 Backbone 或检测头,则原始权重可能不再适用,需要重新训练新的预训练权重。冻结训练(Frozen Training)指的是在训练初期固定部分网络参数(通常是 Backbone),仅训练特定层(如检测头)。作用:提高训练稳定性,减少梯度剧烈波动。加快训练速度,降低计算成本。防止过拟合,尤其适用于小数据集训练。

2025-04-24 21:25:37 503

原创 YOLOv11改进-双Backbone架构:利用双backbone提高yolo11目标检测的精度

YOLOv11 的 Backbone 基于 CSPNet 的改进版本,通过引入 C3K2 模块、C2PSA等进一步优化了特征流的传递效率,同时减少冗余计算,提高了模型的参数利用率。目前主流的设计路径主要包括三类:CNN 与 CNN 的轻量级组合、CNN 与 Transformer 的语义增强组合,以及 CNN 与 Mamba 的状态建模组合。同时使用CNN+CNN双backbone的网络结构中,可以对CNN结构进行改进,如再其中一个分支中添加频域、注意力机制等操作,增强模型的边缘、语义特征等。

2025-04-24 08:28:21 1659

原创 YOLO11改进-Backbone-引入OverLoCK替换YOLO backbone 融合自上而下注意力机制,实现高效的长程依赖建模与局部细节捕捉,同时平衡计算复杂度与性能

OverLoCK 的理论核心是模拟人类视觉系统的自上而下注意力机制Base-Net提取中低层特征,通过粗粒度全局建模生成动态语义先验(模拟 “先概览” 过程),Focus-Net在全局先验引导下进行精细化特征感知(模拟 “后精修” 过程)。结合上下文混合动态卷积(ContMix),通过计算输入特征与全局区域中心的亲和度生成动态卷积核,使每个像素的卷积操作融合全局语义信息,既突破传统卷积的固定核限制以建模长程依赖,又保留局部归纳偏置捕捉细节。

2025-04-23 13:44:32 1080

原创 YOLO11改进-Backbone-引入TransXNet替换YOLO backbone 学习全局和局部动态信息,提高检测精度

D - Mixer 动态特征聚合:D - Mixer 将输入特征图沿通道维度均分为两个子特征图,分别由 OSRA 和 IDConv 处理,OSRA 用于捕捉全局信息,IDConv 用于提取局部特征,两者输出拼接后经 STE 聚合,这种方式使模型能根据输入动态聚合全局和局部信息,增强表示能力。IDConv 动态卷积:IDConv 通过自适应平均池化聚合空间上下文,经卷积生成注意力图,再经 softmax 等操作生成与输入相关的卷积核。

2025-04-23 13:43:41 700

原创 YOLO11改进-Backbone-引入MobileNetV4替换backbone,平衡精度与效率的问题

Roofline 模型:用于评估模型在不同硬件上的性能,通过计算操作强度与硬件处理器和内存系统理论极限的关系,判断模型是受内存还是计算瓶颈限制,公式为ModelTime=∑i​max(MACTimei​,MemTimei​),其中MACTimei​=PeakMACsLayerMACsi​​,MemTimei​=PeakMemBWWeightBytesi​+ActivationBytesi​​。通过分析不同 Ridge Point(RP)下模型的延迟和精度,为模型设计提供指导。

2025-04-22 07:09:32 1217

原创 YOLO11改进-Backbone-引入Swin Transformer替换backbone,利用自注意力机制获取上下文信息

基于移位窗口的自注意力计算:标准 Transformer 的全局自注意力计算复杂度与令牌数量呈二次关系,不适用于许多视觉任务。Swin Transformer 提出在局部窗口内计算自注意力,将窗口均匀划分图像且互不重叠,降低计算复杂度。同时,采用移位窗口分区方法,在连续的 Swin Transformer 块中交替使用两种分区配置,引入跨窗口连接,增强模型建模能力。相对位置偏差:在计算自注意力时,引入相对位置偏差,为每个头计算相似度时加入相对位置偏差矩阵B。

2025-04-22 07:08:45 995

原创 YOLO11改进-Backbone-引入ShuffleNet v1替换backbone,实现轻量化

逐点分组卷积(Pointwise Group Convolution):为降低 1×1 卷积的计算复杂度,在 1×1 层应用分组卷积,使每个卷积仅在相应输入通道组上操作,减少计算量。通道混洗(Channel Shuffle):分组卷积虽减少计算量,但会导致信息在通道组间流动受限。通道混洗操作通过重新排列通道,使后续卷积层能从不同组获取输入数据,增强信息交流。具体实现是将卷积层输出通道维度重塑、转置后再展平作为下一层输入,且该操作可微,能用于端到端训练。

2025-04-21 09:12:48 563

原创 YOLO11改进-Backbone-引入ShuffleNet v2替换backbone,实现轻量化

ShuffleNet V2 的原理基于对传统计算复杂度指标 FLOPs 局限性的认识,提出应使用直接指标(如速度)并在目标平台进行评估。通过分析 ShuffleNet v1 和 MobileNet v2 的运行时性能,得出四条实用设计准则:相等通道宽度可最小化内存访问成本,过度组卷积会增加成本,网络碎片化降低并行度,元素 - wise 操作不可忽视。ShuffleNet V2 依此进行设计,引入通道分割,优化卷积和连接方式,减少元素 - wise 操作,既提升模型容量,又提高效率,实现速度和精度的良好平衡。

2025-04-21 09:12:17 1262

原创 YOLO11改进-Backbone-使用MobileMamba替换YOLO backbone 提高检测精度

SSA 的核心理论是通过计算不同序列对应通道内的注意力权重,来聚合处理后的序列。这种设计能够捕捉不同序列间的复杂依赖关系。其理论基础源于注意力机制在深度学习中的广泛应用,注意力机制可以让模型更加关注重要的信息。在 SSA 中,通过对不同序列特征的处理和分析,计算出每个序列在不同通道上的重要程度,即注意力权重,然后根据这些权重对序列进行加权求和,从而实现对不同序列信息的有效整合。状态空间模型(SSM)与 Mamba 基础Mamba 的长距离建模。

2025-04-19 22:56:56 1574

原创 YOLO11改进-模块-引入序列混洗注意力模块SSA 提高多尺度 遮挡

SSA 的核心理论是通过计算不同序列对应通道内的注意力权重,来聚合处理后的序列。这种设计能够捕捉不同序列间的复杂依赖关系。其理论基础源于注意力机制在深度学习中的广泛应用,注意力机制可以让模型更加关注重要的信息。在 SSA 中,通过对不同序列特征的处理和分析,计算出每个序列在不同通道上的重要程度,即注意力权重,然后根据这些权重对序列进行加权求和,从而实现对不同序列信息的有效整合。序列混洗注意力(SSA)模块是 MaIR 模型的关键组件,主要用于聚合处理后的序列,从而更好地利用不同扫描方向的互补信息。

2025-04-17 09:35:12 1048

原创 YOLO11改进-模块-引入令牌统计自注意力TSSA 提高多尺度 遮挡

基于最大编码率降低(MCR2 )和白盒架构设计理论,推导新型注意力机制。表示学习与最大编码率降低(MCR2 ):现实数据常具高维概率分布下的低维结构,Transformer 通过找到合适的表示映射,将数据转换为适合任务的特征。MCR2 目标旨在通过寻找不同组 token 特征的压缩与扩展平衡,挖掘数据潜在低维结构。其目标函数由扩展项和压缩项组成,分别衡量所有特征的扩展程度和各分组特征的压缩程度。白盒深度网络与算法展开:白盒架构设计通过算法展开构建网络,将网络层操作解释为优化目标函数的增量更新步骤。

2025-04-17 09:34:09 1137

原创 YOLO11改进-模块-引入令牌聚合模块TAB 提高小目标 遮挡

基于内容感知的思想,通过计算图像令牌(token)与令牌中心的相似度,将内容相似的令牌聚合在一起。借鉴 Routing Transformer,共享令牌中心并在训练阶段用指数移动平均(EMA)更新,以学习全局令牌中心。基于此,将图像令牌划分为内容相似的组,进而实现更精准的长距离信息交互。主要由四部分构成。Content-Aware Token Aggregation(CATA)模块负责获取初始令牌中心,按相似度划分令牌组,为解决组内令牌数量不均衡问题还会进一步划分子组,提升并行效率。

2025-04-14 09:17:00 1014

原创 YOLO11改进-模块-引入核选择融合注意力KSFA 增大感受野,提高多尺度 小目标检测能力

KSFA 通过一系列操作实现对多尺度特征的选择和融合,以适应不同土地覆盖类型的上下文尺度需求。首先,利用扩张深度卷积构建大感受野获取特征,再通过空间 - 光谱选择机制,根据不同土地覆盖类型的特点,自适应地融合合适感受野大小的特征。在空间选择方面,通过对不同感受野卷积核提取的特征进行拼接、池化和卷积操作,生成空间选择掩码;在光谱选择方面,利用全局平均池化和全连接层生成光谱注意力特征,再通过 softmax 操作得到光谱选择掩码,最终通过矩阵乘法得到空间 - 光谱选择权重,对特征图进行加权融合。

2025-04-14 09:16:03 1125

原创 YOLO11改进-模块-引入Shift module 缓解信息损失和梯度错误问题

通过水平、垂直和混合移位操作,对输入特征进行变换。水平移位将输入特征图向右移动一个像素,垂直移位与之类似,混合移位则从相邻四个令牌中提取特征并替换当前令牌特征。这些操作在通道维度上进行,重复操作和池化操作进一步增强特征融合,最终将移位操作结果与 MLP 层输出相加,缓解信息损失和梯度错误,提升模型性能。2. YOLOv11与。

2025-04-09 09:11:54 663

原创 YOLO11改进-模块-引入门控瓶颈卷积GBC 关注目标抑制背景干扰

GBC 的理论核心是通过低秩近似和门控机制,在减少模型计算量的同时,增强其对裂缝特征的提取能力。在卷积操作中,传统方式计算量较大。GBC 引入瓶颈卷积,采用低秩近似的方法,将高维矩阵映射到低维空间,从而降低计算复杂度。这一操作使得模型在处理裂缝图像时,能更高效地提取特征,同时减少资源消耗。另外,门控机制为每个空间位置和通道赋予动态特征,让模型可以根据不同的裂缝特征进行自适应调整,增强对裂缝细节的捕捉能力,提高分割精度。从提供的图片来看,门控瓶颈卷积GBC。

2025-04-09 09:11:15 907

原创 YOLO11改进-模块-引入可变形交互注意力模块DIA-Module

DIA - Module 基于不同的池化策略生成具有属性差异的特征,通过特定的梯度调整方法利用跨属性的调制系数来重构特征块的形态,减少冗余样本点信息。同时,不同属性特征之间的相互作用促使神经元和可学习参数在训练过程中更多地参与,增强掩码空间特征的表示能力。在 MS 和 PAN 图像融合中,利用 MS 图像在全局和光滑特征方面的优势以及 PAN 图像在纹理细节方面的优势,通过设置不同的梯度缩放因子调整调制系数,实现对不同模态特征的有效融合和增强。从提供的图片来看,DIA。

2025-04-07 12:19:39 1047

原创 YOLO11改进-模块-引入Re - parameterized BatchNorm(RepBN)增强卷积过程中的归一化问题

RepBN 的公式为RepBN(X)=BN(X)+ηX,其中η是可学习参数,与模型其他参数一起端到端训练。RepBN(X;这表明 RepBN 输出分布由α+ησ和β+ημ控制,分别对应方差和均值。通过调整η,RepBN 可灵活控制输出分布,当α=0,β=0时,相当于跳过 BatchNorm;当η=0时,RepBN 变为纯 BatchNorm。2. YOLOv11与。

2025-04-07 12:19:14 951

原创 YOLO11改进-模块-引入调制融合模块MFM 动态融合不同层的特征,增强检测精度

MFM 的核心理论是基于特征融合和权重调制思想。它通过对不同来源的特征进行融合,并根据特征在去雾图像重建中的重要性动态调整融合权重,突出对去雾有重要贡献的特征,抑制无关或干扰特征,从而提升网络对图像特征的表达能力,优化去雾效果。例如,在去雾网络的解码过程中,不同层级和通道的特征包含了不同尺度和类型的信息,MFM 能够自适应地整合这些信息,使网络更好地学习到图像的清晰结构和细节信息。从提供的图片来看,调制融合模块MFM模块主要包含以下几个部分:输入:接收来自其他模块的特征信息。

2025-03-31 09:51:14 880

原创 YOLO11改进-模块-引入Dynamic Tanh优化模型提高精度

研究发现,Transformer 中的 LN 层对输入的映射呈现出类似 tanh 函数的 S 形曲线特性。在较浅层的 LN 层,输入输出关系近似线性;而在较深层,多数曲线形状与 tanh 函数的全段或部分 S 形高度相似。LN 通过对每个 token 独立计算统计量进行归一化,对不同 token 的激活值进行线性变换,但由于不同 token 的均值和标准差不同,整体上对输入张量的激活值呈现出非线性变换效果,尤其对极端值有压缩作用。

2025-03-31 09:50:34 1414 1

原创 YOLO11改进-模块-引入残差哈尔离散小波变换RHDWT 降噪、减少特征丢失,增强小目标和遮挡的检测能力

RHDWT 创新性地将模型驱动分支和残差分支相结合。模型驱动分支利用 Haar DWT(HDWT),融入条纹方向先验知识,对原始特征进行分解,把条纹噪声聚集到特定子带,为后续处理提供基础。残差分支则通过数据驱动的跨通道语义,补充模型驱动分支的信息,弥补其在语义交互上的不足。两者相加,能够更全面地描述图像特征,提升对条纹噪声的表征能力,有效克服了传统独立采样器的缺陷,为准确去除红外图像条纹噪声奠定了理论基础。从提供的图片来看,RHDWTRHDWT 由模型驱动分支和残差分支组成。

2025-03-26 09:53:41 1273

原创 YOLO11改进-模块-引入局部特征嵌入全局特征提取模块LEGM 融合全局与局部特征解决多尺度、去噪、遮挡的问题

LEGM 的理论基础在于卷积网络提取的特征包含大量局部信息,而将卷积层与自注意力机制相结合,能够同时获取局部和全局特征,实现特征的有效融合。在深度信息辅助去雾过程中,LEGM 通过融合不同来源的特征,挖掘它们之间的潜在关系,突出与清晰图像相关的特征,从而有助于保护图像的细节信息,提升去雾效果。例如,它将 U-Net 输出经 1×1 卷积后的特征、3×3 卷积输出的特征以及深度估计网络 DE 后 DRDB 输出的特征作为输入,综合这些局部与全局特征进行后续处理。从提供的图片来看,LEGM。

2025-03-26 09:53:05 1279

原创 YOLO11改进-模块-引入跨尺度选择性融合模块CSFblock 解决不同分辨率特征融合的问题

CSFblock 的设计基于多尺度特征融合的理论。它认为不同分辨率的特征都包含着对图像分类有价值的信息,通过将高分辨率特征和经过上采样处理后的低分辨率特征进行融合,可以充分利用这些信息。具体来说,利用全局平均池化(GAP)获取特征的全局信息,再通过全连接层生成紧凑特征向量来引导特征选择过程,最终通过注意力机制对不同分辨率的特征进行加权融合,使得模型能够更好地捕捉图像的多尺度特征,从而提高分类的准确性。从提供的图片来看,CSFblockMCA 模块由三个并行分支组成,每个分支负责不同维度的注意力建模。

2025-03-25 09:08:04 1402

原创 YOLO11改进-模块-引入局部区域自注意力机制Local-Region Self-Attention(LRSA) 利用自注意力机制增强小目标和遮挡的检测能力

LRSA 的核心理论基于自注意力机制,其目的是增强局部区域内令牌(token)之间的依赖关系。在图像超分辨率中,局部区域的细节对于重建高分辨率图像至关重要。LRSA 通过计算局部区域内不同位置特征之间的注意力权重,来确定每个位置对其他位置的关注程度,从而使模型能够聚焦于局部区域内的重要信息。例如,在处理图像中的纹理、边缘等细节时,LRSA 可以根据不同位置特征的相似性,自适应地分配注意力,更好地保留和利用这些局部信息。从提供的图片来看,LRSA重叠补丁。

2025-03-25 09:07:28 1439

原创 YOLO12改进-模块-引入​多维协作注意力MCAM 抗背景干扰,增强多尺度、小目标

​MCA(多维协作注意力)的核心在于打破传统注意力机制对通道与空间维度的割裂式处理,通过多维度协同感知与动态轻量化计算,让网络更智能地捕捉特征间的复杂关联。其本质是让模型同时回答三个问题:“哪些特征重要”(通道维度)、“重要特征在垂直方向的位置”(高度维度)、“重要特征在水平方向的位置”(宽度维度),并将三者动态融合。例如,识别一只鸟时,MCA不仅会增强“羽毛纹理”对应的通道,还能在空间上聚焦“头部区域”,且这种多维度判断是相互关联的——羽毛纹理的显著性可能影响头部定位的权重。

2025-03-21 12:16:00 1971 5

原创 YOLO11改进-模块-引入多维协同注意力机制MCA 解决遮挡和小目标问题

受人类视觉系统启发,注意力机制可视为基于输入图像特征重要性的动态权重调整过程,帮助网络聚焦于图像中最有意义的区域,忽略不必要部分。通过特征聚合、特征变换和特征整合三个步骤构建注意力机制,在深度学习中,将注意力机制融入卷积块有助于大幅提升网络性能。然而,现有方法在学习注意力权重、聚合上下文信息和特征变换等方面存在不足,因此需要开发一种轻量化、高效且可扩展的注意力模块。MCA 模块由三个并行分支组成,每个分支负责不同维度的注意力建模。

2025-03-20 09:16:09 1113

原创 YOLO11改进-模块-引入前 k 稀疏注意力TKSA 动态选择重要区域,关注遮挡小目标区域,减少噪声的影响

TKSA 旨在通过自适应地保留最有用的自注意力值来改进特征聚合。它基于一种可学习的 top - k 选择操作,在计算自注意力时,不是像标准自注意力那样对所有查询 - 键对计算注意力图,而是对每个查询,从键中选择 k 个最大的相似性分数进行自注意力计算。具体来说,通过对通道进行 1×1 卷积和 3×3 深度卷积编码通道上下文,然后计算所有重塑后的查询和键之间像素对的相似性,并在转置的注意力矩阵 M 中屏蔽掉注意力权重较低的不必要元素。

2025-03-20 09:15:38 756

原创 YOLO11改进-模块-引入空间带状注意力机制(Spatial Strip Attention,SSA)增强模型对空间信息处理能力的重要模块

SSA 基于注意力机制的思想,通过对输入特征图的不同空间位置赋予不同的权重,使模型能够有选择性地关注重要的空间区域。它利用轻量级的计算模块来生成注意力权重,避免了自注意力机制中过高的计算成本,同时能在水平和垂直方向上扩大感受野,有效聚合相邻位置的信息,从而更好地捕捉空间上下文。生成水平方向注意力权重:先在水平方向选取大小为 1×K 的带状区域,对其进行全局平均池化(GAP)操作,将特征压缩。接着通过一个卷积层(Conv)和 Sigmoid 函数,生成水平方向的注意力权重。水平方向信息聚合。

2025-03-19 09:15:19 957

原创 YOLO12改进-模块-引入​双域条带注意力机制DSAM 解决卷积中卷积核固定和感受野固定问题,以及transformer计算量大的问题

​DSAM(Dual-Domain Strip Attention Mechanism)的核心思想是通过空间域和频率域的双重注意力机制,高效地捕捉图像中的上下文信息,并利用多尺度学习处理不同大小的退化问题。其设计灵感来源于以下两点:​空间域的长程依赖建模:传统卷积的感受野有限,难以建模大尺度退化;自注意力虽能捕捉长程依赖,但计算复杂度高。DSAM通过条带注意力在水平和垂直方向上高效聚合信息,隐式扩展感受野。频率域的频谱差异利用。

2025-03-19 09:14:20 1675

原创 YOLO11改进-模块-引入卷积加法自注意力机制 Conv Additive Self-Attention 轻量化自注意力机制

Conv Additive Self-Attention 理论基于对传统视觉 Transformer(ViT)自注意力机制的深度剖析。传统 ViT 的多头自注意力(MSA)虽能捕捉长距离依赖和全局信息,但计算时需测量所有 Query 对来获取注意力图,计算复杂度与输入图像大小呈二次关系,在资源受限场景计算负担过重。研究表明,自注意力机制获取全局上下文信息依赖多个信息交互维度,如空间和通道域交互。因此,该机制提出新思路:用更简单高效操作实现信息交互,摒弃复杂且计算成本高的矩阵乘法和 Softmax 操作。

2025-03-18 08:00:00 908

原创 YOLO11改进-模块-双域带状注意力机制DSAM ,增强图像细节特征以及多尺度小目标检测精度

DSAM 基于双域学习理论,通过空间和频率两个域的信息融合,增强图像特征表示。在空间域,SSA 利用简单卷积分支生成注意力权重,聚合相邻位置信息;在频率域,FSA 通过带状平均池化分离频率成分,用轻量级注意力参数调制,减少清晰和退化图像对之间的频率差距。此外,DSAM 应用不同带状大小进行多尺度学习,以更好地处理各种尺寸的退化。DSAM 被应用于 DSANet 网络中,该网络采用流行的编码器 - 解码器架构。

2025-03-18 08:00:00 2276

原创 YOLOv8模型改进 第三十二讲 添加Transformer Self Attention TSA 解决CNN过程中特征丢失的问题

在医学图像分割中,传统方法面临长距离特征依赖建模难、局部信息传递利用不足和网络结构缺陷等问题,TSA 通过多头自注意力机制和位置编码捕捉长距离依赖、优化特征表示。TSA 本质上属于自注意力机制。我分享这篇论文的核心目的,是为了给大家提供撰写论文的思路,尤其是关于如何挖掘创新点。在运用自注意力机制进行研究时,最常见的应用方向是引入上下文信息以及捕捉长距离依赖关系,以此解决 CNN 网络仅能提取局部特征的局限性问题。

2025-03-12 09:20:27 1529

原创 YOLO11改进-模块-引入Transformer Self Attention TSA解决卷积过程中特征丢失的问题

在医学图像分割中,传统方法面临长距离特征依赖建模难、局部信息传递利用不足和网络结构缺陷等问题,TSA 通过多头自注意力机制和位置编码捕捉长距离依赖、优化特征表示。TSA其实就是一个自注意力机制,我分享这篇论文主要的想法是让大家怎么去写论文,就是怎么找创新点,一般我们使用子注意力机制写的最多的就是引入上下文信息,捕捉长距离依赖等,解决CNN网络局部特征的问题。这篇论文提出了一个点:在传统卷积神经网络用于医学图像分割时,卷积和池化是常用操作。

2025-03-12 08:15:00 1117

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除