
YOLOV11魔改
文章平均质量分 94
这个是我分享YOLOv11魔改的专栏,大家可以关注一下
一勺汤
论文辅导,代码改进,联系v:17329949407
购买资源 截屏加群:3671595590
展开
-
YOLO11改进-模块-引入跨模态注意力机制CMA 提高多尺度 遮挡
CMA 基于注意力机制理论,通过对不同模态信息进行交互和融合,使模型能够聚焦于与当前任务相关的关键信息。在驾驶场景中,利用 CLIP 模型提取的语义信息和骨干网络提取的图像信息,计算不同通道之间的注意力权重,以此衡量不同信息对最终结果的影响程度,从而实现跨模态信息的有效融合,更好地指导驾驶员注意力的预测。例如,当行人准备过马路时,模型能依据语义信息将注意力分配到行人身上,提高对潜在危险的感知能力。原创 2025-04-30 11:15:52 · 865 阅读 · 0 评论 -
一文教你如何使用双backbone改进,快速发论文
在CV领域,Backbone 是模型性能的基石。而**双Backbone结构(Dual-Backbone)**的引入,带来了显著的优势,具体来说,双Backbone具备以下优点:特征表达更丰富:两条不同特性的Backbone可以提取互补的信息,兼顾局部细节和全局感知。更强的多尺度建模能力:双路径自然涵盖不同尺度特征,对小目标、大目标都更友好。提升模型鲁棒性:不同路径的特征互补,能够增强模型在复杂环境下的稳定性和泛化能力。灵活的特征融合方式:通过拼接、加权、注意力机制等方式,可以进一步提升特征利用率。适配多样原创 2025-04-28 09:26:25 · 1144 阅读 · 0 评论 -
YOLO11改进-Backbone-引入基于星运算(element-wise multiplication)的高效神经网络模型StarNet替换backbone
星运算能够将输入映射到高维非线性特征空间,类似于核技巧。在单隐藏层神经网络中,星运算可重写为多项求和形式,能扩展出约(2d)2个线性独立维度,在不增加计算开销的情况下显著扩大特征维度。通过堆叠多层星运算,可指数级增加隐式维度,使网络能在低维空间计算的同时获得高维特征表示,这一特性使星运算适合用于高效网络设计。从提供的图片来看,StarNetStarNet 采用 4 阶段分层架构,使用卷积层进行下采样,通过修改后的演示块(demo block)进行特征提取。原创 2025-04-26 07:54:47 · 797 阅读 · 0 评论 -
YOLO训练时到底需不需要使用权重
通常建议使用预训练权重,特别是当数据量较少时,它能提供稳定的特征表示。但如果模型修改幅度较大,比如更换 Backbone 或检测头,则原始权重可能不再适用,需要重新训练新的预训练权重。冻结训练(Frozen Training)指的是在训练初期固定部分网络参数(通常是 Backbone),仅训练特定层(如检测头)。作用:提高训练稳定性,减少梯度剧烈波动。加快训练速度,降低计算成本。防止过拟合,尤其适用于小数据集训练。原创 2025-04-24 21:25:37 · 506 阅读 · 0 评论 -
YOLOv11改进-双Backbone架构:利用双backbone提高yolo11目标检测的精度
YOLOv11 的 Backbone 基于 CSPNet 的改进版本,通过引入 C3K2 模块、C2PSA等进一步优化了特征流的传递效率,同时减少冗余计算,提高了模型的参数利用率。目前主流的设计路径主要包括三类:CNN 与 CNN 的轻量级组合、CNN 与 Transformer 的语义增强组合,以及 CNN 与 Mamba 的状态建模组合。同时使用CNN+CNN双backbone的网络结构中,可以对CNN结构进行改进,如再其中一个分支中添加频域、注意力机制等操作,增强模型的边缘、语义特征等。原创 2025-04-24 08:28:21 · 1668 阅读 · 0 评论 -
YOLO11改进-Backbone-引入OverLoCK替换YOLO backbone 融合自上而下注意力机制,实现高效的长程依赖建模与局部细节捕捉,同时平衡计算复杂度与性能
OverLoCK 的理论核心是模拟人类视觉系统的自上而下注意力机制Base-Net提取中低层特征,通过粗粒度全局建模生成动态语义先验(模拟 “先概览” 过程),Focus-Net在全局先验引导下进行精细化特征感知(模拟 “后精修” 过程)。结合上下文混合动态卷积(ContMix),通过计算输入特征与全局区域中心的亲和度生成动态卷积核,使每个像素的卷积操作融合全局语义信息,既突破传统卷积的固定核限制以建模长程依赖,又保留局部归纳偏置捕捉细节。原创 2025-04-23 13:44:32 · 1087 阅读 · 0 评论 -
YOLO11改进-Backbone-引入TransXNet替换YOLO backbone 学习全局和局部动态信息,提高检测精度
D - Mixer 动态特征聚合:D - Mixer 将输入特征图沿通道维度均分为两个子特征图,分别由 OSRA 和 IDConv 处理,OSRA 用于捕捉全局信息,IDConv 用于提取局部特征,两者输出拼接后经 STE 聚合,这种方式使模型能根据输入动态聚合全局和局部信息,增强表示能力。IDConv 动态卷积:IDConv 通过自适应平均池化聚合空间上下文,经卷积生成注意力图,再经 softmax 等操作生成与输入相关的卷积核。原创 2025-04-23 13:43:41 · 701 阅读 · 0 评论 -
YOLO11改进-Backbone-引入MobileNetV4替换backbone,平衡精度与效率的问题
Roofline 模型:用于评估模型在不同硬件上的性能,通过计算操作强度与硬件处理器和内存系统理论极限的关系,判断模型是受内存还是计算瓶颈限制,公式为ModelTime=∑imax(MACTimei,MemTimei),其中MACTimei=PeakMACsLayerMACsi,MemTimei=PeakMemBWWeightBytesi+ActivationBytesi。通过分析不同 Ridge Point(RP)下模型的延迟和精度,为模型设计提供指导。原创 2025-04-22 07:09:32 · 1217 阅读 · 0 评论 -
YOLO11改进-Backbone-引入Swin Transformer替换backbone,利用自注意力机制获取上下文信息
基于移位窗口的自注意力计算:标准 Transformer 的全局自注意力计算复杂度与令牌数量呈二次关系,不适用于许多视觉任务。Swin Transformer 提出在局部窗口内计算自注意力,将窗口均匀划分图像且互不重叠,降低计算复杂度。同时,采用移位窗口分区方法,在连续的 Swin Transformer 块中交替使用两种分区配置,引入跨窗口连接,增强模型建模能力。相对位置偏差:在计算自注意力时,引入相对位置偏差,为每个头计算相似度时加入相对位置偏差矩阵B。原创 2025-04-22 07:08:45 · 997 阅读 · 0 评论 -
YOLO11改进-Backbone-引入ShuffleNet v1替换backbone,实现轻量化
逐点分组卷积(Pointwise Group Convolution):为降低 1×1 卷积的计算复杂度,在 1×1 层应用分组卷积,使每个卷积仅在相应输入通道组上操作,减少计算量。通道混洗(Channel Shuffle):分组卷积虽减少计算量,但会导致信息在通道组间流动受限。通道混洗操作通过重新排列通道,使后续卷积层能从不同组获取输入数据,增强信息交流。具体实现是将卷积层输出通道维度重塑、转置后再展平作为下一层输入,且该操作可微,能用于端到端训练。原创 2025-04-21 09:12:48 · 564 阅读 · 0 评论 -
YOLO11改进-Backbone-引入ShuffleNet v2替换backbone,实现轻量化
ShuffleNet V2 的原理基于对传统计算复杂度指标 FLOPs 局限性的认识,提出应使用直接指标(如速度)并在目标平台进行评估。通过分析 ShuffleNet v1 和 MobileNet v2 的运行时性能,得出四条实用设计准则:相等通道宽度可最小化内存访问成本,过度组卷积会增加成本,网络碎片化降低并行度,元素 - wise 操作不可忽视。ShuffleNet V2 依此进行设计,引入通道分割,优化卷积和连接方式,减少元素 - wise 操作,既提升模型容量,又提高效率,实现速度和精度的良好平衡。原创 2025-04-21 09:12:17 · 1263 阅读 · 0 评论 -
YOLO11改进-Backbone-使用MobileMamba替换YOLO backbone 提高检测精度
SSA 的核心理论是通过计算不同序列对应通道内的注意力权重,来聚合处理后的序列。这种设计能够捕捉不同序列间的复杂依赖关系。其理论基础源于注意力机制在深度学习中的广泛应用,注意力机制可以让模型更加关注重要的信息。在 SSA 中,通过对不同序列特征的处理和分析,计算出每个序列在不同通道上的重要程度,即注意力权重,然后根据这些权重对序列进行加权求和,从而实现对不同序列信息的有效整合。状态空间模型(SSM)与 Mamba 基础Mamba 的长距离建模。原创 2025-04-19 22:56:56 · 1578 阅读 · 0 评论 -
YOLO11改进-模块-引入序列混洗注意力模块SSA 提高多尺度 遮挡
SSA 的核心理论是通过计算不同序列对应通道内的注意力权重,来聚合处理后的序列。这种设计能够捕捉不同序列间的复杂依赖关系。其理论基础源于注意力机制在深度学习中的广泛应用,注意力机制可以让模型更加关注重要的信息。在 SSA 中,通过对不同序列特征的处理和分析,计算出每个序列在不同通道上的重要程度,即注意力权重,然后根据这些权重对序列进行加权求和,从而实现对不同序列信息的有效整合。序列混洗注意力(SSA)模块是 MaIR 模型的关键组件,主要用于聚合处理后的序列,从而更好地利用不同扫描方向的互补信息。原创 2025-04-17 09:35:12 · 1048 阅读 · 0 评论 -
YOLO11改进-模块-引入令牌统计自注意力TSSA 提高多尺度 遮挡
基于最大编码率降低(MCR2 )和白盒架构设计理论,推导新型注意力机制。表示学习与最大编码率降低(MCR2 ):现实数据常具高维概率分布下的低维结构,Transformer 通过找到合适的表示映射,将数据转换为适合任务的特征。MCR2 目标旨在通过寻找不同组 token 特征的压缩与扩展平衡,挖掘数据潜在低维结构。其目标函数由扩展项和压缩项组成,分别衡量所有特征的扩展程度和各分组特征的压缩程度。白盒深度网络与算法展开:白盒架构设计通过算法展开构建网络,将网络层操作解释为优化目标函数的增量更新步骤。原创 2025-04-17 09:34:09 · 1138 阅读 · 0 评论 -
YOLO11改进-模块-引入令牌聚合模块TAB 提高小目标 遮挡
基于内容感知的思想,通过计算图像令牌(token)与令牌中心的相似度,将内容相似的令牌聚合在一起。借鉴 Routing Transformer,共享令牌中心并在训练阶段用指数移动平均(EMA)更新,以学习全局令牌中心。基于此,将图像令牌划分为内容相似的组,进而实现更精准的长距离信息交互。主要由四部分构成。Content-Aware Token Aggregation(CATA)模块负责获取初始令牌中心,按相似度划分令牌组,为解决组内令牌数量不均衡问题还会进一步划分子组,提升并行效率。原创 2025-04-14 09:17:00 · 1015 阅读 · 0 评论 -
YOLO11改进-模块-引入核选择融合注意力KSFA 增大感受野,提高多尺度 小目标检测能力
KSFA 通过一系列操作实现对多尺度特征的选择和融合,以适应不同土地覆盖类型的上下文尺度需求。首先,利用扩张深度卷积构建大感受野获取特征,再通过空间 - 光谱选择机制,根据不同土地覆盖类型的特点,自适应地融合合适感受野大小的特征。在空间选择方面,通过对不同感受野卷积核提取的特征进行拼接、池化和卷积操作,生成空间选择掩码;在光谱选择方面,利用全局平均池化和全连接层生成光谱注意力特征,再通过 softmax 操作得到光谱选择掩码,最终通过矩阵乘法得到空间 - 光谱选择权重,对特征图进行加权融合。原创 2025-04-14 09:16:03 · 1129 阅读 · 0 评论 -
YOLO11改进-模块-引入Shift module 缓解信息损失和梯度错误问题
通过水平、垂直和混合移位操作,对输入特征进行变换。水平移位将输入特征图向右移动一个像素,垂直移位与之类似,混合移位则从相邻四个令牌中提取特征并替换当前令牌特征。这些操作在通道维度上进行,重复操作和池化操作进一步增强特征融合,最终将移位操作结果与 MLP 层输出相加,缓解信息损失和梯度错误,提升模型性能。2. YOLOv11与。原创 2025-04-09 09:11:54 · 664 阅读 · 0 评论 -
YOLO11改进-模块-引入门控瓶颈卷积GBC 关注目标抑制背景干扰
GBC 的理论核心是通过低秩近似和门控机制,在减少模型计算量的同时,增强其对裂缝特征的提取能力。在卷积操作中,传统方式计算量较大。GBC 引入瓶颈卷积,采用低秩近似的方法,将高维矩阵映射到低维空间,从而降低计算复杂度。这一操作使得模型在处理裂缝图像时,能更高效地提取特征,同时减少资源消耗。另外,门控机制为每个空间位置和通道赋予动态特征,让模型可以根据不同的裂缝特征进行自适应调整,增强对裂缝细节的捕捉能力,提高分割精度。从提供的图片来看,门控瓶颈卷积GBC。原创 2025-04-09 09:11:15 · 908 阅读 · 0 评论 -
YOLO11改进-模块-引入可变形交互注意力模块DIA-Module
DIA - Module 基于不同的池化策略生成具有属性差异的特征,通过特定的梯度调整方法利用跨属性的调制系数来重构特征块的形态,减少冗余样本点信息。同时,不同属性特征之间的相互作用促使神经元和可学习参数在训练过程中更多地参与,增强掩码空间特征的表示能力。在 MS 和 PAN 图像融合中,利用 MS 图像在全局和光滑特征方面的优势以及 PAN 图像在纹理细节方面的优势,通过设置不同的梯度缩放因子调整调制系数,实现对不同模态特征的有效融合和增强。从提供的图片来看,DIA。原创 2025-04-07 12:19:39 · 1047 阅读 · 0 评论 -
YOLO11改进-模块-引入Re - parameterized BatchNorm(RepBN)增强卷积过程中的归一化问题
RepBN 的公式为RepBN(X)=BN(X)+ηX,其中η是可学习参数,与模型其他参数一起端到端训练。RepBN(X;这表明 RepBN 输出分布由α+ησ和β+ημ控制,分别对应方差和均值。通过调整η,RepBN 可灵活控制输出分布,当α=0,β=0时,相当于跳过 BatchNorm;当η=0时,RepBN 变为纯 BatchNorm。2. YOLOv11与。原创 2025-04-07 12:19:14 · 952 阅读 · 0 评论 -
YOLO11改进-模块-引入调制融合模块MFM 动态融合不同层的特征,增强检测精度
MFM 的核心理论是基于特征融合和权重调制思想。它通过对不同来源的特征进行融合,并根据特征在去雾图像重建中的重要性动态调整融合权重,突出对去雾有重要贡献的特征,抑制无关或干扰特征,从而提升网络对图像特征的表达能力,优化去雾效果。例如,在去雾网络的解码过程中,不同层级和通道的特征包含了不同尺度和类型的信息,MFM 能够自适应地整合这些信息,使网络更好地学习到图像的清晰结构和细节信息。从提供的图片来看,调制融合模块MFM模块主要包含以下几个部分:输入:接收来自其他模块的特征信息。原创 2025-03-31 09:51:14 · 883 阅读 · 0 评论 -
YOLO11改进-模块-引入Dynamic Tanh优化模型提高精度
研究发现,Transformer 中的 LN 层对输入的映射呈现出类似 tanh 函数的 S 形曲线特性。在较浅层的 LN 层,输入输出关系近似线性;而在较深层,多数曲线形状与 tanh 函数的全段或部分 S 形高度相似。LN 通过对每个 token 独立计算统计量进行归一化,对不同 token 的激活值进行线性变换,但由于不同 token 的均值和标准差不同,整体上对输入张量的激活值呈现出非线性变换效果,尤其对极端值有压缩作用。原创 2025-03-31 09:50:34 · 1416 阅读 · 0 评论 -
YOLO11改进-模块-引入残差哈尔离散小波变换RHDWT 降噪、减少特征丢失,增强小目标和遮挡的检测能力
RHDWT 创新性地将模型驱动分支和残差分支相结合。模型驱动分支利用 Haar DWT(HDWT),融入条纹方向先验知识,对原始特征进行分解,把条纹噪声聚集到特定子带,为后续处理提供基础。残差分支则通过数据驱动的跨通道语义,补充模型驱动分支的信息,弥补其在语义交互上的不足。两者相加,能够更全面地描述图像特征,提升对条纹噪声的表征能力,有效克服了传统独立采样器的缺陷,为准确去除红外图像条纹噪声奠定了理论基础。从提供的图片来看,RHDWTRHDWT 由模型驱动分支和残差分支组成。原创 2025-03-26 09:53:41 · 1276 阅读 · 0 评论 -
YOLO11改进-模块-引入局部特征嵌入全局特征提取模块LEGM 融合全局与局部特征解决多尺度、去噪、遮挡的问题
LEGM 的理论基础在于卷积网络提取的特征包含大量局部信息,而将卷积层与自注意力机制相结合,能够同时获取局部和全局特征,实现特征的有效融合。在深度信息辅助去雾过程中,LEGM 通过融合不同来源的特征,挖掘它们之间的潜在关系,突出与清晰图像相关的特征,从而有助于保护图像的细节信息,提升去雾效果。例如,它将 U-Net 输出经 1×1 卷积后的特征、3×3 卷积输出的特征以及深度估计网络 DE 后 DRDB 输出的特征作为输入,综合这些局部与全局特征进行后续处理。从提供的图片来看,LEGM。原创 2025-03-26 09:53:05 · 1282 阅读 · 0 评论 -
YOLO11改进-模块-引入跨尺度选择性融合模块CSFblock 解决不同分辨率特征融合的问题
CSFblock 的设计基于多尺度特征融合的理论。它认为不同分辨率的特征都包含着对图像分类有价值的信息,通过将高分辨率特征和经过上采样处理后的低分辨率特征进行融合,可以充分利用这些信息。具体来说,利用全局平均池化(GAP)获取特征的全局信息,再通过全连接层生成紧凑特征向量来引导特征选择过程,最终通过注意力机制对不同分辨率的特征进行加权融合,使得模型能够更好地捕捉图像的多尺度特征,从而提高分类的准确性。从提供的图片来看,CSFblockMCA 模块由三个并行分支组成,每个分支负责不同维度的注意力建模。原创 2025-03-25 09:08:04 · 1402 阅读 · 0 评论 -
YOLO11改进-模块-引入局部区域自注意力机制Local-Region Self-Attention(LRSA) 利用自注意力机制增强小目标和遮挡的检测能力
LRSA 的核心理论基于自注意力机制,其目的是增强局部区域内令牌(token)之间的依赖关系。在图像超分辨率中,局部区域的细节对于重建高分辨率图像至关重要。LRSA 通过计算局部区域内不同位置特征之间的注意力权重,来确定每个位置对其他位置的关注程度,从而使模型能够聚焦于局部区域内的重要信息。例如,在处理图像中的纹理、边缘等细节时,LRSA 可以根据不同位置特征的相似性,自适应地分配注意力,更好地保留和利用这些局部信息。从提供的图片来看,LRSA重叠补丁。原创 2025-03-25 09:07:28 · 1441 阅读 · 0 评论 -
YOLO11改进-模块-引入多维协同注意力机制MCA 解决遮挡和小目标问题
受人类视觉系统启发,注意力机制可视为基于输入图像特征重要性的动态权重调整过程,帮助网络聚焦于图像中最有意义的区域,忽略不必要部分。通过特征聚合、特征变换和特征整合三个步骤构建注意力机制,在深度学习中,将注意力机制融入卷积块有助于大幅提升网络性能。然而,现有方法在学习注意力权重、聚合上下文信息和特征变换等方面存在不足,因此需要开发一种轻量化、高效且可扩展的注意力模块。MCA 模块由三个并行分支组成,每个分支负责不同维度的注意力建模。原创 2025-03-20 09:16:09 · 1115 阅读 · 0 评论 -
YOLO11改进-模块-引入前 k 稀疏注意力TKSA 动态选择重要区域,关注遮挡小目标区域,减少噪声的影响
TKSA 旨在通过自适应地保留最有用的自注意力值来改进特征聚合。它基于一种可学习的 top - k 选择操作,在计算自注意力时,不是像标准自注意力那样对所有查询 - 键对计算注意力图,而是对每个查询,从键中选择 k 个最大的相似性分数进行自注意力计算。具体来说,通过对通道进行 1×1 卷积和 3×3 深度卷积编码通道上下文,然后计算所有重塑后的查询和键之间像素对的相似性,并在转置的注意力矩阵 M 中屏蔽掉注意力权重较低的不必要元素。原创 2025-03-20 09:15:38 · 756 阅读 · 0 评论 -
YOLO11 沉浸式讲解 YOLOV11网络结构以及代码剖析
YOLO11采用改进的骨干和颈部架构,增强了特征提取能力,提高了物体检测的精确度和复杂任务的表现。YOLO11引入精炼的架构设计和优化的训练流程,实现更快的处理速度,同时保持精度和性能之间的最佳平衡。通过模型设计的进步,YOLO11m在COCO数据集上实现了更高的均值平均精度(mAP),同时使用比YOLOv8m少22%的参数,使其在不妥协准确性的情况下更加计算高效。YOLO11可以无缝部署在各种环境中,包括边缘设备、云平台以及支持NVIDIA GPU的系统,确保最大灵活性。原创 2024-10-01 17:26:40 · 51603 阅读 · 32 评论 -
YOLO11改进-模块-引入空间带状注意力机制(Spatial Strip Attention,SSA)增强模型对空间信息处理能力的重要模块
SSA 基于注意力机制的思想,通过对输入特征图的不同空间位置赋予不同的权重,使模型能够有选择性地关注重要的空间区域。它利用轻量级的计算模块来生成注意力权重,避免了自注意力机制中过高的计算成本,同时能在水平和垂直方向上扩大感受野,有效聚合相邻位置的信息,从而更好地捕捉空间上下文。生成水平方向注意力权重:先在水平方向选取大小为 1×K 的带状区域,对其进行全局平均池化(GAP)操作,将特征压缩。接着通过一个卷积层(Conv)和 Sigmoid 函数,生成水平方向的注意力权重。水平方向信息聚合。原创 2025-03-19 09:15:19 · 957 阅读 · 0 评论 -
YOLO11改进-模块-双域带状注意力机制DSAM ,增强图像细节特征以及多尺度小目标检测精度
DSAM 基于双域学习理论,通过空间和频率两个域的信息融合,增强图像特征表示。在空间域,SSA 利用简单卷积分支生成注意力权重,聚合相邻位置信息;在频率域,FSA 通过带状平均池化分离频率成分,用轻量级注意力参数调制,减少清晰和退化图像对之间的频率差距。此外,DSAM 应用不同带状大小进行多尺度学习,以更好地处理各种尺寸的退化。DSAM 被应用于 DSANet 网络中,该网络采用流行的编码器 - 解码器架构。原创 2025-03-18 08:00:00 · 2281 阅读 · 0 评论 -
YOLO11改进-模块-引入卷积加法自注意力机制 Conv Additive Self-Attention 轻量化自注意力机制
Conv Additive Self-Attention 理论基于对传统视觉 Transformer(ViT)自注意力机制的深度剖析。传统 ViT 的多头自注意力(MSA)虽能捕捉长距离依赖和全局信息,但计算时需测量所有 Query 对来获取注意力图,计算复杂度与输入图像大小呈二次关系,在资源受限场景计算负担过重。研究表明,自注意力机制获取全局上下文信息依赖多个信息交互维度,如空间和通道域交互。因此,该机制提出新思路:用更简单高效操作实现信息交互,摒弃复杂且计算成本高的矩阵乘法和 Softmax 操作。原创 2025-03-18 08:00:00 · 914 阅读 · 0 评论 -
YOLO11改进-模块-引入点亮交叉注意力模块(Lighten Cross-Attention,LCA) 提升模型对图像细节的捕捉能力,以实现更精准的显著目标检测。
LCA 模块旨在促进 HV 分支和强度分支之间的交互引导,学习两个分支的互补信息。通过交叉注意力块(CAB),让 HV 特征和强度特征相互引导,例如将一个分支作为查询,另一个分支作为键和值,以此学习互补潜力。同时,基于 Retinex 理论,强度增强层(IEL)对相关张量进行分解处理,以改善图像的亮度并去除饱和区域;颜色降噪层(CDL)则用于避免噪声伪影和颜色偏移,最终提升增强图像的视觉效果。原创 2025-03-12 08:15:00 · 1545 阅读 · 0 评论 -
YOLO11改进-模块-引入凝聚注意力机制Condensed Attention解决遮挡、小目标问题
CA 的核心理论基于特征聚合、注意力计算和特征恢复的三步范式。通过在注意力计算前对通道和空间特征进行聚合,减少冗余特征,降低维度,从而在可接受的计算成本下进行全局注意力计算。在计算完注意力后,再恢复特征的空间和通道维度,以保持与输入特征的一致性。这种先降维计算注意力再恢复维度的方式,使得在超像素层面高效捕获全局依赖成为可能。CA 主要包含特征聚合与恢复以及通道和空间注意力两部分结构。特征聚合与恢复。原创 2025-03-06 08:15:00 · 1776 阅读 · 0 评论 -
YOLO11改进-模块-引入多尺度边缘增强模块MEEM 提升模型对图像细节的捕捉能力,以实现更精准的显著目标检测。
MEEM 的理论基础在于通过多尺度处理和边缘增强来补充 SAM 在细节捕捉上的不足。利用平均池化扩大感受野,在不同尺度下提取图像的边缘信息,再通过边缘增强器突出物体边缘,使模型能够更好地感知物体的边界和细节。通过融合多尺度的边缘信息,MEEM 能够为后续的显著目标检测提供更丰富、更准确的细节特征,从而提高模型对复杂场景中显著物体的定位和分割精度。从提供的图片来看,MEEM多尺度边缘增强模块(MEEM)主要用于在显著目标检测任务中,从输入图像中提取多尺度边缘信息并增强细节,其具体结构如下:局部特征提取。原创 2025-03-06 08:00:00 · 2246 阅读 · 2 评论 -
YOLO11改进-模块-引入多尺度小波池化变压器MWPT 通过结合小波变换、多尺度池化以及门控机制等技术解决多尺度、小目标、边缘模糊等问题
MWPT 模型的理论基础融合了 PoolFormer 的高效令牌混合机制、小波变换的特性、多尺度池化策略以及门控网络原理。它以 PoolFormer 为核心,用基于池化的令牌混合替代传统 Transformer 中计算复杂的注意力机制,降低模型复杂度。同时,引入多尺度小波池化注意力(MWPA)机制,借助小波变换将输入特征分解为不同频率的子带,获取多尺度信息,再经多尺度池化聚合这些信息,增强模型对不同尺度特征的捕捉能力。原创 2025-03-05 19:23:49 · 1378 阅读 · 0 评论 -
YOLO11改进-模块-引入多域学习MDL(Multi-Domain Learning) 使用频域增强图像特征
MDL 模块的理论基础是融合空间域和频域信息,共同指导扩散过程。在低光图像增强中,频域特征包含重要的信息,如颜色和纹理等,在采样过程中,频域特征也会逐步优化,且通常遵循从低频到高频的恢复方式。因此,将频域信息与空间域信息结合,可以为模型提供更全面的特征表示,从而更精确地恢复低光图像。原创 2025-03-05 18:57:52 · 1038 阅读 · 3 评论 -
YOLO11改进-模块-引入混合池化注意力模块Hybrid Pooling Attentio解决小目标问题、遮挡问题
平均池化和最大池化操作的结合可以有效整合通用和详细信息,增强特征图的表示能力。平均池化近似窗口内的值,类似对日常经验的模糊记忆,能获取数据的大致趋势;最大池化捕获窗口内的峰值,类似对重要或特殊事件的清晰记忆,可突出数据的关键特征。通过在不同空间维度上分别进行平均池化和最大池化操作,HPA 可以从不同角度捕捉特征信息。同时,利用分组和重加权的思想,对输入特征图进行分组处理,通过跨空间学习的方式整合不同组的特征,自适应地重新校准通道间的关系,实现不同的跨通道交互,从而有效捕捉和学习复杂的低级特征表示。原创 2025-02-26 12:23:32 · 1666 阅读 · 0 评论 -
YOLO11改进-模块-引入双分支特征提取(Twin-Branch Feature Extraction,TBFE)解决小目标问题、遮挡
TBFE 模块的设计基于 CNN 强大的局部特征提取能力。通过并行使用 3D 和 2D 卷积,分别从光谱和空间维度对 HSI 数据进行特征提取,旨在在特征提取早期无缝集成光谱和空间信息。利用低输出通道的逐点卷积层调整 HSI 的通道维度,减少后续层的输入通道数,降低计算复杂度的同时提取光谱信息。3D 卷积结合扩展和挤压机制,增强对光谱特征的捕获能力;2D 卷积用于提取光谱 - 空间特征,两者结合可充分发挥各自优势,提升模型对光谱 - 空间特征的表示能力。原创 2025-02-25 17:13:06 · 1724 阅读 · 0 评论 -
YOLO11改进-模块-引入极性感知注意力 Polarity-Aware Attention
在传统的模型注意力机制里,就好比我们看东西只看一半。它常常会把一些带有 “负” 含义的信息丢掉,只留下 “正” 信息。比如说,在判断两个事物的关系时,只关注它们相似、匹配的地方,而忽略了它们之间不匹配、相反的部分。极性感知注意力就改进了这一点,它把每个信息(查询向量和键向量)都拆成 “正” 和 “负” 两个部分。这样一来,模型在计算两个信息之间的关系时,不仅会考虑它们相同符号(比如都为正或者都为负)部分的相似程度,还会考虑不同符号(一个正一个负)部分的相互作用。原创 2025-02-25 16:44:48 · 1182 阅读 · 0 评论