YOLOv11模型改进系列
文章平均质量分 86
在接下来的时间里,我将为大家持续更新 YOLOv11 有效改进专栏,带来一系列独特的改进模块和创新思路。我们不仅仅关注于即插即用的解决方案,更致力于深入探讨每个模块的设计原理、功能特点以及在实际应用中的表现。
一勺汤
这个作者很懒,什么都没留下…
展开
-
YOLOv11改进有效系列目录 - 包含卷积、主干、检测头、注意力机制、Neck上百种创新机制 - 针对多尺度、小目标、遮挡、恶劣天气等问题
在一些特定情况下,目标检测任务由于多种因素的影响,变得更加复杂和困难。以下是几类常见的困难目标检测场景:1. 小目标检测定义:小目标检测是指当目标在图像中的占比非常小时,模型需要准确识别和定位这些目标。典型场景包括远程监控、卫星图像分析等。挑战1. 低分辨率:由于目标在图像中占据像素较少,细节缺失,特征提取难度增加。2. 特征不足:小目标缺乏明显的形状和纹理特征,容易被复杂背景淹没。3. 检测难度大:由于小目标与背景之间的对比度较低,误检的几率上升。4. 数据不平衡。原创 2024-10-16 14:33:34 · 3265 阅读 · 0 评论 -
YOLO11改进-模块-引入CMUNeXt Block 增强全局信息
有效提取全局信息:通过使用大核深度可分离卷积替换普通卷积,先利用大核的深度可分离卷积提取每个通道的全局信息,再借助残差连接,解决了卷积网络难以提取全局信息的问题。保持轻量化优势:深度可分离卷积本身相比普通卷积能有效减少网络参数和计算成本,并且通过合理设计,如倒置瓶颈设计等,在提取全局信息的同时保持了网络的轻量化,使得网络既能够提取全局信息,又适合在移动和边缘设备上部署。综合利用归纳偏置和全局信息提取。原创 2024-11-08 15:45:35 · 722 阅读 · 0 评论 -
YOLO11改进-注意力-引入多尺度注意力聚合(MSAA)模块
对来自backbone的特征进行细化处理。通过空间和通道两个路径的操作,增强了空间和通道方面的特征信息,使得输出的特征图在空间和通道维度上都更加优质。1. 在空间细化路径中,通过对不同核大小的卷积进行求和以及一系列的空间特征聚合操作,实现了多尺度空间信息的融合。2. 在通道聚合路径中,通过全局平均池化、卷积和激活等操作生成通道注意力图,并与空间细化后的图相结合,实现了通道维度上的多尺度信息融合。原创 2024-11-06 09:16:56 · 765 阅读 · 0 评论 -
YOLO11改进-注意力-引入通道压缩的自注意力机制CRA
是一种基于通道压缩的自注意力机制,主要应用于语义分割中的全局特征捕捉。CRA的设计通过将查询(Query)和键(Key)压缩到一维,显著降低了计算复杂度,从而减少了计算资源的消耗。多头自注意力机制:CRA基于多头自注意力(Multi-Head Self-Attention, MHSA),每个注意力头独立计算全局相似性,并将不同头的结果合并,以增强模型对不同特征的表达能力。输入特征被划分为多个注意力头,每个头的维度是一定的。通道压缩使得查询和键的维度分别降低,从而减少了计算复杂度。查询和键的生成及通道压缩。原创 2024-11-04 12:03:10 · 1122 阅读 · 0 评论 -
YOLO11改进-模块-引入频率谱动态聚合模块FSDA 去除噪声
频谱信息聚合:首先,以特征图的幅度谱和相位谱作为输入。对其进行逐点卷积操作,然后经过激活函数处理,实现频谱信息的初步聚合。计算通道权重:接着,以聚合后的频谱信息为输入。先进行全局平均池化,再经过多次卷积和激活函数操作,最后通过特定激活函数得到通道权重映射。应用通道权重:之后,将通道权重映射与之前聚合的频谱信息进行点乘,再通过卷积操作,然后利用残差连接进行滤波,从而得到滤波后的频谱信息,包括幅度谱和相位谱。映射回空间域。原创 2024-10-30 09:42:58 · 1194 阅读 · 3 评论 -
YOLO11改进-模块-引入基于部分卷积的前馈网络PCFN
PCFN(基于部分卷积的前馈网络): PCFN采用部分卷积来减少计算冗余,并通过跨通道交互来增强特征表示。具体地,PCFN首先通过1×1卷积进行通道交互,然后将特征分割为两部分,对其中一部分进行3×3卷积处理,最后再将两部分特征融合,生成更具代表性的输出特征。PCFN不仅能够在通道维度上实现特征融合,还能够在空间维度上对特征进行局部编码,从而进一步提高图像的特征。原创 2024-10-29 09:19:20 · 1040 阅读 · 0 评论 -
YOLO11改进-模块-引入通道混洗的重参数化卷积(RCS)
RCS(ReparameterizedConvolution based on channel Shuffe)是受ShuffeNet启发设计的。输入张量被分成两个具有相同维度的通道张量,一个用于身份分支、1x1卷积和3x3卷积的训练阶段,另一个在推理阶段通过结构重参数化转换为3x3 RepConv。多分支拓扑结构:在训练阶段,多分支拓扑结构可以学习丰富的特征信息,而在推理阶段,简化的单分支结构可以节省内存消耗实现快速推理。原创 2024-10-25 09:20:01 · 710 阅读 · 0 评论 -
YOLO11改进-LOSS计算-引入 添加自适应阈值焦点损失(ATFL)函数 解决类别不平衡
自适应阈值焦点损失(Adaptive Threshold Focal Loss,ATFL)是一种用于目标检测和分割任务的损失函数,旨在解决类别不平衡问题并提高模型对难以分类样本的关注。ATFL 的设计灵感源自焦点损失(Focal Loss),后者通过降低易分类样本的损失权重来集中模型的注意力于难以分类的样本上。自适应性:ATFL 根据每个样本的特征和模型的输出自适应地调整损失权重。它能够动态地根据预测结果和真实标签之间的差异,调整阈值,使得模型在训练时更加关注难以分类的样本。焦点机制。原创 2024-10-25 09:17:34 · 998 阅读 · 1 评论 -
YOLOv11模型改进-注意力-引入傅里叶+Transformer模块FSAS 增强频域特征
1. 卷积操作:通过1X1逐点卷积和3X3深度卷积对输入特征进行初步处理,以获取用于后续计算的特征q k v。2. 傅里叶变换:利用快速傅里叶变换(FFT)及其逆变换(IFFT)将特征从空间域转换到频域,并在频域中进行相关性计算。3. 归一化操作:使用层归一化(Layer Norm)对计算得到的相关性结果进行归一化处理,以便更好地估计聚合特征。最后通过一个的卷积操作将原始输入特征和估计的聚合特征相结合,生成最终的输出特征。原创 2024-10-24 10:44:06 · 967 阅读 · 0 评论 -
YOLOv11模型改进-模块-引入并行化补丁感知注意力模块PPA 提升小目标检测
1.1. 多分支特征提取1.多分支策略:PPA 采用并行多分支方法,包含局部、全局和串行卷积三个分支。这种设计可以提取不同尺度和层次的特征,有助于捕获目标的多尺度特征,进而提高小目标检测的准确性。2. 具体操作: 首先对输入特征张量进行逐点卷积调整。然后分别通过三个分支进行计算,最后将三个分支的结果相加。原创 2024-10-23 14:00:42 · 1063 阅读 · 0 评论 -
YOLOv11模型改进-模块-引入轻量级深度神经网络的卷积核DualConv 降低参数量
SAFM 是一种空间自适应特征调制机制,它主要应用于图像超分辨率任务中。通过对输入特征进行动态调制,SAFM 能够自适应地选择代表性的特征表示,从而更好地恢复图像的细节和清晰度。这种机制的核心在于它能够从多尺度的角度处理特征,同时考虑局部和全局的信息,使得生成的特征更加具有判别性和鲁棒性。标准卷积(standard Convolution):同时对输入特征图进行特征提取和通道融合,计算成本由输入输出通道数、卷积核大小及维度相关公式计算,是一种基础的卷积方式3。原创 2024-10-23 13:59:54 · 791 阅读 · 1 评论 -
YOLO11改进-注意力-引入混合局部通道注意力机制(MLCA)
MLCA(混合局部通道注意力)是一种轻量级的注意力机制,旨在提高目标检测网络的性能。它结合了局部和全局特征以及通道和空间特征的信息,以增强网络对有用特征的捕捉能力。具体来说,MLCA首先对输入特征图进行局部和全局平均池化,然后通过1D卷积进行特征转换。局部池化后的特征与原始输入特征相结合,全局池化后的特征则与局部池化特征相结合,最终通过反池化恢复到原始空间维度。这种方法在保持计算效率的同时,显著提高了检测精度。原创 2024-10-23 13:58:06 · 814 阅读 · 0 评论 -
YOLO11改进-注意力-引入Deformable Large Kernel Attention (DLKA) 解决多尺度、小目标、遮挡等问题
Deformable Large Kernel Attention (DLKA) 是一种用于视觉任务的注意力机制,旨在提升模型在处理不同尺寸和形状对象时的灵活性和性能。DLKA 的设计灵感源自传统的注意力机制,但通过引入可变形核(deformable kernel)来增强对局部特征的适应能力。原创 2024-10-23 13:57:16 · 946 阅读 · 0 评论 -
YOLO11改进-注意力-引入Large Separable Kernel Attention(LSKA)
是一种改进的注意力机制,旨在解决大卷积核带来的计算和内存开销问题。分离卷积核:LSKA将2D卷积核分解为水平和垂直的1D卷积核,减少了计算复杂度和内存占用。结合局部和全局信息:通过级联的1D卷积核,LSKA能够同时捕捉局部和全局的特征信息。计算效率:相比传统的大卷积核设计,LSKA显著降低了计算复杂度,尤其是在处理大尺寸卷积核时。这种设计使得LSKA在保持高性能的同时,显著减少了计算和内存开销,适用于各种视觉任务,如图像分类、目标检测和语义分割。原创 2024-10-23 13:55:40 · 1114 阅读 · 0 评论 -
YOLO11改进-模块-引入分层互补注意力混合器HRAMi
弥补信息丢失:H-RAMi旨在减轻层次化结构中的下采样引起的像素级信息丢失。它通过对编码器不同阶段的多尺度注意力进行上采样,确保网络能保持关键的细节信息。融合多尺度与双维度注意力:H-RAMi将来自不同尺度和维度(空间和通道)的注意力进行融合,捕捉更丰富的语义信息。这一融合发生在层归一化之前,确保混合后的注意力在后续处理中仍然有效。提高模型鲁棒性:H-RAMi层在提高模型鲁棒性方面表现突出,特别是在一些需要精确边界的任务中(如图像去噪)。该层在提升性能的同时仅增加了少量计算资源。原创 2024-10-23 13:54:35 · 1248 阅读 · 0 评论 -
YOLO11改进-注意力-引入自集成注意力机制SEAM解决遮挡问题
左边是SEAM的架构,右边是部分为通道和空间混合模块CSMM的结构。CSMM利用深度可分卷积来学习不同尺度的特征空间尺度与通道的相关性。SEAM是一种自集成注意力机制,旨在通过多视角特征融合和一致性正则化来增强模型的鲁棒性和泛化能力。首先对输入特征Patch Embedding输入图像被分割成不同大小的patch(6, 7, 8),这些patch通过Patch Embedding层进行初步处理,生成特征表示。CSMM模块深度可分离卷积:使用深度可分离卷积来学习空间维度和通道之间的相关性。深度卷积。原创 2024-10-21 09:20:32 · 1512 阅读 · 0 评论 -
YOLO11改进-注意力-引入非局部注意力机制NonLocalBlockND 增强小目标、遮挡检测
非局部注意力机制是一种有效捕捉输入特征图中所有位置之间关系的方法。它特别适合处理需要全局上下文信息的任务。与传统卷积神经网络(CNN)相比,非局部块不再局限于局部邻域的特征。非局部注意力机制通过在全局范围内捕捉特征图中所有位置的相互关系来提升模型性能。该机制的核心是通过三个分支(θ、ϕ、g)生成降维后的特征表示,用于计算特征之间的相似性并进行加权。θ分支:将输入特征降维到 512 通道,用于生成查询向量(query)。ϕ分支:同样降维为 512 通道,用于生成键向量(key),用于与查询向量计算相似性。原创 2024-10-21 09:19:23 · 817 阅读 · 0 评论 -
YOLOv11模型改进-注意力-引入简单无参数注意力模块SimAM 提升小目标和遮挡检测
基于视觉神经科学理论,为每个神经元定义能量函数通过最小化这个能量函数,找到目标神经元与其他神经元的线性可分性,从而确定神经元在视觉处理中的重要程度。2. 特征精炼部分:缩放算子应用:根据哺乳动物大脑中注意力调制表现为对神经元反应的增益效应,使用缩放算子进行特征精炼。具体来说,通过来实现,其中包含所有通道和空间维度的(即每个神经元的最小能量),函数用于限制中的过大值,以确保特征精炼的合理性。原创 2024-10-21 09:17:38 · 964 阅读 · 0 评论 -
YOLOv11模型改进-注意力-引入单头自注意力Single-Head Self-Attention(SHSA)解决小目标、遮挡
SHSA通过仅对部分输入通道应用单头注意力,减少了计算冗余和内存访问成本。部分通道处理:仅对部分输入通道(默认比例为1/4.67)应用注意力层,其余通道保持不变。全通道投影:最终的投影应用于所有通道,确保注意力特征有效传播到所有通道。简化操作:减少内存绑定操作,提高了计算效率。原创 2024-10-21 09:16:58 · 904 阅读 · 3 评论 -
YOLOv11模型改进-模块-引入空间池化模块StripPooling 解决遮挡、小目标
本文介绍了一种新的空间池化策略,称为,用于场景解析。结构:包括两个平行路径,分别进行水平和垂直方向的条带池化,然后通过1D卷积层进行特征调整。:结合了条带池化和传统的空间池化,分别用于捕捉长距离和短距离的依赖关系。作用捕捉长距离依赖:通过长条形的池化窗口,有效捕捉分布离散的区域之间的关系。避免不相关信息干扰:窄条形的池化窗口有助于捕捉局部上下文,防止不相关区域干扰标签预测。提高场景解析性能:在多个基准数据集上,证明了这种方法能够显著提升场景解析的效果。原创 2024-10-21 09:16:21 · 875 阅读 · 0 评论 -
YOLOv11改进-卷积-引入小波卷积WTConv 解决多尺度小目标问题
1.首先,WTConv利用二维Haar小波变换对输入图像进行多级分解。低频分量 (LL):捕捉图像的低频信息,如整体形状或轮廓。水平高频分量 (LH):捕捉图像中的水平边缘信息。垂直高频分量 (HL):捕捉图像中的垂直边缘信息。对角线高频分量 (HH):捕捉图像的对角线细节。在每一级的小波变换中,图像被下采样(空间分辨率减半),但频率信息得到了更细的分解。递归地执行小波变换(称为多级分解)可以得到不同尺度下的频率分量。原创 2024-10-18 13:43:35 · 1924 阅读 · 0 评论 -
YOLOv11改进-卷积-空间和通道重构卷积SCConv
空间重建单元 (SRU)和通道重建单元 (CRU)。它们按照顺序组合使用,首先通过SRU减少空间维度上的冗余,然后通过CRU减少通道维度上的冗余。SCConv可以无缝集成到现有的CNN中,用于替代标准卷积操作(Li_SCConv_Spatial_and_C…)。原创 2024-10-18 13:42:38 · 1201 阅读 · 0 评论 -
YOLOv11改进-模块-引入Histogram Transformer Block(HTB)解决恶劣天气(雨雾雪)
Histogram Transformer Block(HTB)是一个专门为解决恶劣天气图像退化问题设计的模块,其核心思想是利用动态范围直方图自注意力机制来对图像中的退化区域进行有效处理。动态范围直方图自注意力(DHSA)和双尺度门控前馈网络(DGFF),它们共同用于从受天气影响的图像中提取特征。动态范围直方图自注意力(DHSA)直方图分类:根据像素的强度值将其分类到不同的直方图箱中,从而在这些强度基础的箱内和箱间应用自注意力机制。原创 2024-10-17 12:22:14 · 1261 阅读 · 6 评论 -
YOLOv11改进-模块-引入矩形自校准模块RCM有利于复杂场景(小目标、遮挡等)
RCM是专为语义分割等任务设计的上下文增强模块,旨在通过捕捉水平和垂直全局上下文信息,提升模型对前景物体的建模能力。1. 矩形自校准注意力机制:通过水平和垂直池化操作,生成矩形注意力区域,用以捕捉关键的上下文信息。这些区域通过加权机制使模型更加聚焦前景对象。2. 形状自校准:通过大核卷积调节矩形注意力区域的形状,使其更贴近前景物体,提升模型的前景定位精度。3. 局部细节融合:通过深度卷积进一步增强局部特征的细节表示,使得模型在边界识别和小物体检测中表现更好。原创 2024-10-17 12:21:18 · 1023 阅读 · 5 评论 -
YOLOv11改进-注意力-引入双层路由注意力机制(Biformer)解决小目标、遮挡等问题
BiFormer 旨在通过双层路由注意力机制(Bi-level Routing Attention, BRA)实现动态、查询感知的稀疏注意力。双层路由注意力机制区域级路由:首先在粗粒度的区域级别过滤掉大部分不相关的键值对,仅保留少量相关区域。细粒度注意力:在保留的区域内进行细粒度的token-to-token注意力计算。Biformer的实现步骤区域划分和输入投影:将输入特征图划分为多个不重叠的区域,并通过线性投影生成查询、键和值张量。区域间路由。原创 2024-10-17 12:20:29 · 1352 阅读 · 0 评论 -
YOLOv11改进-卷积-引入Upsampling by Dynamic DySample 解决传统上采样灵活性问题
现有的上采样方法如等,依赖于动态卷积来生成上采样的内容感知核,但这些方法需要额外的子网络生成动态卷积核计算量较大。尤其是 FADE 和 SAPA 需要高分辨率的特征图作为引导,进一步增加了计算负担,并限制了应用场景。DySample的核心思想是将上采样过程重新定义为点采样(Point Sampling)。通过学习输入特征图中的采样点坐标,DySample 生成内容感知的采样点来对特征图进行重新采样,而不是使用动态卷积核。具体实现步骤如下:1. 输入特征图:大小为 C×H×W的输入特征图。原创 2024-10-17 09:14:41 · 1209 阅读 · 0 评论 -
YOLOv11模型改进-注意力机制-引入自适应稀疏自注意力ASSA
Adaptive Sparse Self-Attention(ASSA)是自适应稀疏Transformer(AST)模型中的关键组件,主要用于提升图像恢复任务的性能。ASSA的设计旨在减少标准Transformer模型中由于无关区域引入的噪声交互,同时解决特征冗余问题。稀疏自注意力(SSA):使用基于ReLU的稀疏注意力机制,过滤掉查询与键之间低匹配的无关交互。这可以减少无效特征的参与,帮助聚焦在最有价值的信息交互上。原创 2024-10-16 16:45:00 · 1451 阅读 · 5 评论 -
YOLOv11模型改进-卷积-引入Haar小波下采样Down_wt卷积
下图展示了Down_wt卷积的结构。通过Haar小波变换,该卷积模块实现了高效的特征提取和降采样。Down_wt 模块的设计Down_wt模块的核心功能是执行小波变换,并将变换后的结果与卷积层结合。小波变换:使用DWTForward类进行小波变换,提取低频和高频成分。特征拼接:将低频成分和三个高频成分(水平、垂直和对角)拼接在一起,形成新的输入。卷积层:通过1x1卷积、批量归一化和ReLU激活函数处理拼接后的特征。原创 2024-10-16 14:28:39 · 1047 阅读 · 6 评论