
YOLOv8模型改进系列
文章平均质量分 90
🚀🚀全网最详细的YOLO入门实践+改进YOLOv8 进阶教程,主打实战,本专栏所有模块都是即插即用,十分方便,预计的改进有上百种。
一勺汤
论文辅导,代码改进,联系v:17329949407
购买资源 截屏加群:3671595590
展开
-
YOLO训练时到底需不需要使用权重
通常建议使用预训练权重,特别是当数据量较少时,它能提供稳定的特征表示。但如果模型修改幅度较大,比如更换 Backbone 或检测头,则原始权重可能不再适用,需要重新训练新的预训练权重。冻结训练(Frozen Training)指的是在训练初期固定部分网络参数(通常是 Backbone),仅训练特定层(如检测头)。作用:提高训练稳定性,减少梯度剧烈波动。加快训练速度,降低计算成本。防止过拟合,尤其适用于小数据集训练。原创 2025-04-24 21:25:37 · 528 阅读 · 0 评论 -
YOLOv8模型改进 第三十二讲 添加Transformer Self Attention TSA 解决CNN过程中特征丢失的问题
在医学图像分割中,传统方法面临长距离特征依赖建模难、局部信息传递利用不足和网络结构缺陷等问题,TSA 通过多头自注意力机制和位置编码捕捉长距离依赖、优化特征表示。TSA 本质上属于自注意力机制。我分享这篇论文的核心目的,是为了给大家提供撰写论文的思路,尤其是关于如何挖掘创新点。在运用自注意力机制进行研究时,最常见的应用方向是引入上下文信息以及捕捉长距离依赖关系,以此解决 CNN 网络仅能提取局部特征的局限性问题。原创 2025-03-12 09:20:27 · 1540 阅读 · 0 评论 -
YOLOv8模型改进 第三十讲 添加自注意力机制Restormer提高小目标检测能力,增强细节特征
原理:利用自注意力机制,尤其是多头自注意力,从不同子空间捕捉特征间关系,计算注意力权重衡量元素重要性以聚合信息,捕捉长距离依赖关系;通过位置编码为模型提供元素位置信息,辅助恢复图像结构和细节。模块结构1. 多尺度密集 Transformer 注意力模块(MDTA):基于多头自注意力机制,输入特征投影到多个头,每个头独立计算注意力,再拼接和变换,增强特征表达能力。2. 门控双线性特征网络(GDFN):对 MDTA 输出特征进一步处理,通过门控机制和双线性变换控制特征流动和融合,选择性增强或抑制不同特征。原创 2025-02-19 09:22:58 · 2079 阅读 · 0 评论 -
YOLOv8模型改进 第二十九讲 添加可学习小波变换节点 Learnable Wavelet Transform Node 提高小目标检测能力,增强细节特征
小波变换可将信号分解为高频和低频分量,分解出代表细节的高频部分和反映大致轮廓的低频部分,让我们能从不同频率角度分析信号。LWN 围绕小波卷积构建。先通过小波卷积层将输入特征图投影到小波域,接着分离小波域分量,用深度卷积提取变换特征,再经 1×1 卷积扩展缩放通道,最后经小波逆变换将特征图还原到空间域输出。原创 2025-01-14 09:18:22 · 1765 阅读 · 15 评论 -
YOLOv8模型改进 第二十八讲 添加曼哈顿自注意力MaSA
从 RetNet 获得灵感:RetNet 在 NLP 领域利用距离相关的时间衰减矩阵为文本数据提供明确的时间先验。本文将其时间衰减机制扩展到空间域。双向二维衰减:将 RetNet 中的单向一维时间衰减转换为双向二维空间衰减,基于令牌间的曼哈顿距离构建空间衰减矩阵,使目标令牌能根据周围令牌距离分配不同程度注意力,从而感知全局信息并引入明确空间先验。分解形式:提出一种沿图像轴分解自注意力和空间衰减矩阵的方法,在不损失先验信息的情况下,以线性复杂度对全局信息建模,且保持与原始 MaSA 相同的感受野形状。原创 2025-01-10 09:34:11 · 1756 阅读 · 0 评论 -
YOLOv8模型改进 第二十七讲 添加Cascade Multi-Receptive Fields(CMRF)模块
1. 原理:利用特征图多通道的冗余信息,通过一种成本友好的级联策略挖掘特征信息并融合不同感受野的信息,以此增强特征表示,同时保持模块的轻量级设计,从而提升模型性能。它借鉴了一些轻量级模块的思想,如 Ghost 和 PConv,对特征信息进行高效利用。2. 结构输入处理:接收输入特征图后,先通过 PWConv - BN - Act 模块挖掘特征信息并调整通道数量。原创 2025-01-03 09:18:18 · 1626 阅读 · 3 评论 -
YOLOv8模型改进 第二十六讲 添加通道混合器 ConvolutionalGated Linear Unit
其中一个线性投影(通常是)经过激活函数得到一个介于 0 和 1 之间的值,这个值可以看作是一个门控信号。然后,这个门控信号与另一个未经激活函数处理的线性投影进行逐元素相乘的操作。通过这种方式,门控信号可以动态地控制另一个线性投影中哪些元素被保留,哪些被抑制,从而实现对通道信息的混合和调整。1.1通道混合的目的整合通道信息:不同通道包含了输入数据的不同特征表示,通道混合的一个主要目的是将这些不同通道的信息进行整合,以便网络能够更好地学习到数据的综合特征。原创 2024-12-27 10:01:01 · 1884 阅读 · 0 评论 -
YOLOv11改进-注意力-引入双层路由注意力机制(Biformer)解决小目标、遮挡等问题
BiFormer 旨在通过双层路由注意力机制(Bi-level Routing Attention, BRA)实现动态、查询感知的稀疏注意力。双层路由注意力机制区域级路由:首先在粗粒度的区域级别过滤掉大部分不相关的键值对,仅保留少量相关区域。细粒度注意力:在保留的区域内进行细粒度的token-to-token注意力计算。Biformer的实现步骤区域划分和输入投影:将输入特征图划分为多个不重叠的区域,并通过线性投影生成查询、键和值张量。区域间路由。原创 2024-10-17 12:20:29 · 4480 阅读 · 0 评论 -
YOLOv8模型改进 第二十五讲 添加基于卷积调制(Convolution based Attention) 替换自注意力机制
传统多头自注意力机制(左图)设计原因捕捉长距离依赖关系自注意力机制通过计算查询(Q)和键(K)的点积来生成注意力矩阵,这种方式可以让模型在处理序列数据时,能够直接考虑到序列中任意两个位置之间的关系,而不受距离的限制。在视觉领域,这意味着模型可以捕捉到图像中不同区域之间的长距离依赖关系,这对于理解图像的整体结构和内容非常重要。例如,在识别一个包含多个物体的场景时,一个物体的特征可能与远处另一个物体的特征存在关联,自注意力机制可以很好地捕捉这种关联。特征提取与融合。原创 2024-12-25 11:02:40 · 2081 阅读 · 0 评论 -
YOLOv8模型改进 第二十四讲 添加多尺度大核注意力(MLKA) 提高多尺度检测能力
原创 2024-12-19 12:22:22 · 2068 阅读 · 1 评论 -
YOLOv8模型改进 第二十三讲 添加自适应特征增强(AFE)模块 提高复杂场景中的检测精度
随着计算机视觉技术的发展,语义分割在诸多领域发挥着关键作用,但现有方法在复杂场景下面临困境。传统 CNN 方法受限于固定结构,难以处理长程依赖;视觉变换器方法虽引入新机制,却在语义级上下文、细节捕捉和数据需求上存在问题;混合注意力模型在杂乱背景及半透明对象分割时表现不佳。同时,复杂场景中的半透明对象边界不清、背景杂乱干扰及尺度变化多样等挑战,进一步凸显了现有方法的局限性。为攻克这些难题,自适应特征增强(AFE)模块被提出,以期改善复杂场景下的语义分割效果。基于此,本文将 AFE与YOLOv8 的C2f模块相原创 2024-12-19 12:21:17 · 2439 阅读 · 0 评论 -
YOLOv8模型改进 第二十二讲 添加空间自适应特征调制网络SAFMN 增强neck部分上采样分辨率
浅层卷积层:首先将输入的低分辨率(LR)图像通过一个 3×3 卷积层转换到特征空间,生成浅层特征。这一步骤是对输入图像进行初步的特征提取,为后续的处理做准备。特征混合模块(FMM)堆叠:由多个 FMM 模块堆叠而成,用于从浅层特征生成更精细的深层特征,以用于高分辨率(HR)图像重建。空间自适应特征调制(SAFM)层多尺度特征生成:先将归一化后的输入特征拆分成四组,第一组通过 3×3 深度卷积处理,其余部分通过池化操作进行不同尺度的采样,从而获取不同尺度的特征信息。原创 2024-12-12 09:51:02 · 1991 阅读 · 1 评论 -
YOLOv8模型改进 第二十一讲 添加多尺度差异融合模块MDFM 增强跨层拼接的特征
1. 特征提取与差异特征生成首先从双时相图像中提取特征f1和f2。对f1和f2进行像素级相减操作,随后取绝对值。通过一个 3×3 的卷积操作处理上述结果,得到Di。2. 多尺度特征融合(MSFF)利用多尺度特征学习机制增强特征融合效果,该机制基于不同核大小的卷积实现多尺度融合,由 MSFF 单元完成。MSFF 单元包含四个分支的卷积操作,其中三个分支分别进行特定的卷积融合操作,具体为:第一个分支:[1x1,3x3,1x1]第二个分支:[1x1,5x5,1x1]原创 2024-12-10 11:59:17 · 3376 阅读 · 4 评论 -
YOLOv8模型改进 第二十讲 添加三重注意力机制Triplet Attention 提升小目标/遮挡目标
本文这次分享的是三重注意力机制Triplet Attention。现在注意力机制在计算机视觉任务中被广泛研究和应用,如 Squeeze-and-Excitation Networks (SENet)、Convolutional Block Attention Module (CBAM) 等。然而,这些方法存在一些局限性,例如需要大量可学习参数,或者在计算通道注意力时没有考虑跨维度交互等。Triplet Attention可以有效的解决这些问题,其强调在计算注意力权重时捕获跨维度交互的重要性,以提供丰富的特征原创 2024-12-06 15:21:19 · 2980 阅读 · 1 评论 -
YOLOv8模型改进 第十九讲 添加倒置残差移动块iRMB(Inverted Residual Mobile Block,) 去除图像噪声
模块结构该模块由三个主要的卷积层和一个注意力机制(Attention Mechanism)组成。模块的输入是一个特征图(Feature Map),输出也是一个特征图。卷积层第一层:1x1 卷积(1x1 Conv)这是模块的第一层,对输入的特征图进行 1x1 卷积操作。该层的输出分为三路,分别用于后续的操作。第二层:3x3 深度可分离卷积(3x3 DW - Conv)这是模块的第二层,对第一层 1x1 卷积的输出进行 3x3 深度可分离卷积操作。原创 2024-11-08 15:42:36 · 2547 阅读 · 1 评论 -
YOLOv8模型改进 第十八讲 添加CMUNeXt Block 提升小目标检测
1. 深度卷积:采用大核的深度卷积(depthwise convolution)操作,组数等于通道数,用于提取每个通道的全局信息,之后有一个残差连接(residual connection)。2. 逐点卷积(第一次):接着是一个逐点卷积(pointwise convolution),核大小为 1×1。3. 逐点卷积(第二次)并倒置瓶颈设计:再经过一个逐点卷积,并且这两个逐点卷积之间有倒置瓶颈设计,即两个逐点卷积层之间的隐藏维度设置为比输入维度宽四倍,用于混合空间和通道信息。原创 2024-11-06 09:17:29 · 2804 阅读 · 1 评论 -
YOLOv8模型改进 第十七讲 通道压缩的自注意力机制CRA
CRA 模块以多頭自注意力为基础架构进行构建。多頭自注意力机制允许模型从不同的表示子空间中学习到更丰富的特征信息,这为有效地捕捉全局上下文提供了基础。1. 首先,对输入特征进行线性变换从而得到查询和键,同时对键和值进行平均池化操作。其中,查询是通过输入特征与特定的权重矩阵相乘得到,键是通过对输入特征先进行平均池化操作,然后再与权重矩阵相乘得到。原创 2024-11-04 12:01:40 · 1616 阅读 · 0 评论 -
YOLOv8模型改进 第十六讲 添加频率谱动态聚合模块FSDA 去除图像噪声
频谱信息聚合:首先,以特征图的幅度谱和相位谱作为输入。对其进行逐点卷积操作,然后经过激活函数处理,实现频谱信息的初步聚合。计算通道权重:接着,以聚合后的频谱信息为输入。先进行全局平均池化,再经过多次卷积和激活函数操作,最后通过特定激活函数得到通道权重映射。应用通道权重:之后,将通道权重映射与之前聚合的频谱信息进行点乘,再通过卷积操作,然后利用残差连接进行滤波,从而得到滤波后的频谱信息,包括幅度谱和相位谱。映射回空间域。原创 2024-10-30 09:43:46 · 1759 阅读 · 0 评论 -
YOLOv8模型改进 第十五讲 添加多尺度注意力聚合(MSAA)模块 提升多尺度目标检测
对来自backbone的特征进行细化处理。通过空间和通道两个路径的操作,增强了空间和通道方面的特征信息,使得输出的特征图在空间和通道维度上都更加优质。1. 在空间细化路径中,通过对不同核大小的卷积进行求和以及一系列的空间特征聚合操作,实现了多尺度空间信息的融合。2. 在通道聚合路径中,通过全局平均池化、卷积和激活等操作生成通道注意力图,并与空间细化后的图相结合,实现了通道维度上的多尺度信息融合。原创 2024-10-29 09:17:27 · 3915 阅读 · 8 评论 -
YOLOv8模型改进 第十四讲 添加傅里叶变换+Transformer模块FSAS
1. 卷积操作:通过1X1逐点卷积和3X3深度卷积对输入特征进行初步处理,以获取用于后续计算的特征q k v。2. 傅里叶变换:利用快速傅里叶变换(FFT)及其逆变换(IFFT)将特征从空间域转换到频域,并在频域中进行相关性计算。3. 归一化操作:使用层归一化(Layer Norm)对计算得到的相关性结果进行归一化处理,以便更好地估计聚合特征。最后通过一个的卷积操作将原始输入特征和估计的聚合特征相结合,生成最终的输出特征。原创 2024-10-24 10:44:49 · 2319 阅读 · 16 评论 -
YOLOv8模型改进 第十三讲 添加卷积和注意力融合模块(CAFM) 提升小目标和遮挡检测
CAFM 旨在融合卷积神经网络(CNNs)和 Transformer 的优势,通过结合局部特征捕捉能力(卷积操作)和全局特征提取能力(注意力机制),对图像的全局和局部特征进行有效建模,以提升检测效果。1.1 局部分支1. 通道调整:首先使用卷积调整通道维度。卷积可以在不改变特征图的宽和高的情况下,对通道数进行灵活调整,这有助于后续操作更好地处理特征信息。2.通道混洗操作:接着进行通道混洗操作。原创 2024-10-22 19:26:42 · 4772 阅读 · 2 评论 -
YOLOv8模型改进 第十二讲 添加Haar小波下采样Down_wt卷积
下图展示了Down_wt卷积的结构。通过Haar小波变换,该卷积模块实现了高效的特征提取和降采样。Down_wt 模块的设计Down_wt模块的核心功能是执行小波变换,并将变换后的结果与卷积层结合。小波变换:使用DWTForward类进行小波变换,提取低频和高频成分。特征拼接:将低频成分和三个高频成分(水平、垂直和对角)拼接在一起,形成新的输入。卷积层:通过1x1卷积、批量归一化和ReLU激活函数处理拼接后的特征。原创 2024-10-22 19:26:04 · 2518 阅读 · 8 评论 -
YOLOv8模型改进 第十一讲 添加自适应阈值焦点损失(ATFL)函数解决类别不平衡
自适应阈值焦点损失(Adaptive Threshold Focal Loss,ATFL)是一种用于目标检测和分割任务的损失函数,旨在解决类别不平衡问题并提高模型对难以分类样本的关注。ATFL 的设计灵感源自焦点损失(Focal Loss),后者通过降低易分类样本的损失权重来集中模型的注意力于难以分类的样本上。自适应性:ATFL 根据每个样本的特征和模型的输出自适应地调整损失权重。它能够动态地根据预测结果和真实标签之间的差异,调整阈值,使得模型在训练时更加关注难以分类的样本。焦点机制。原创 2024-10-22 19:25:32 · 3674 阅读 · 11 评论 -
YOLOv8模型改进 第十讲 添加全维度动态卷积(Omni-dimensional Dynamic Convolution,ODConv)
全维度动态卷积(ODConv),一种通过在卷积核的不同维度上引入注意力机制来增强特征表示的方法。动态卷积的概念:传统的卷积神经网络(CNN)使用静态的卷积核,而动态卷积通过使用多个卷积核的线性组合,并根据输入数据的不同加权,来提高模型的准确性。ODConv的设计:ODConv在卷积核的四个维度(空间尺寸、输入通道、输出通道和卷积核数量)上引入多维度注意力机制。这些注意力机制可以动态调整卷积核的权重,从而提高特征提取能力。性能提升。原创 2024-10-17 12:22:51 · 3153 阅读 · 2 评论 -
YOLOv8模型改进 第九讲 添加EMAttention注意力机制
EMA模块首先将输入通道分组(如“g”表示通道组数),然后通过两个并行分支处理特征。一个分支对特征进行水平和垂直方向的一维全局池化操作(X Avg Pool和Y Avg Pool),另一个分支通过3x3卷积提取特征。随后,这些特征通过sigmoid函数进行归一化处理,并通过跨维度交互模块进行整合。最后,经过sigmoid调制,输出特征映射会增强或削弱原始输入特征,提升模型的检测能力。原创 2024-10-17 10:46:42 · 2943 阅读 · 1 评论 -
YOLOv8模型改进 第八讲 添加上下文引导模块 ContextGuided
CGNet(Context Guided Network)是一种专为语义分割设计的轻量级神经网络。它通过有效的特征提取和上下文信息融合,旨在提升图像分割任务的准确性和效率。以下是 CGNet 的详细介绍,包括其设计理念、结构组成和应用场景。原创 2024-10-14 09:29:09 · 2756 阅读 · 0 评论 -
YOLOv8模型改进 第七讲 一种新颖的注意力机制 Outlook Attention
Outlook Attention 是一种新型的注意力机制,旨在增强模型在处理特征图时的上下文理解能力。它通过结合局部卷积操作与全局注意力计算,使得模型能够同时关注特征图中的细节和整体信息。这种设计特别适用于图像处理和计算机视觉任务,如目标检测、图像分类和图像分割等。原创 2024-10-14 09:28:17 · 2002 阅读 · 12 评论 -
YOLOv8模型改进 第六讲 添加多尺度卷积注意力模块(MSCAM)
在计算机视觉领域,目标检测的准确性和效率是研究的热点之一。YOLOv8 作为最新一代的实时目标检测模型,已经在多个基准数据集上展示了其优越的性能。然而,随着数据集和应用场景的复杂性增加,如何进一步提升模型的检测精度和鲁棒性仍然是一个重要课题。本博客将探讨将多尺度卷积注意力模块(MSCAM)整合到 YOLOv8 模型中的方法,以实现性能的进一步提升。原创 2024-10-10 14:44:40 · 3735 阅读 · 2 评论 -
YOLOv8模型改进 第五讲 添加StarNet星形卷积StarsBlock
本文将探讨如何将StarNet集成到YOLOv8中,以提高模型的特征表示能力和检测性能。它更像是核函数(特别是多项式核函数),在不同的通道上进行成对乘法,从而实现特征的非线性组合。星形操作能够在紧凑的特征空间内工作,同时受益于隐含的高维特征表示。这正是星形操作引人注目的地方,它能够在不增加计算成本的情况下,提供丰富的特征表示能力。首先,在我上传的代码中yolov8_improve中找到starnet.py代码部分,它包含两个部分一个是starnet.py的核心代码,一个是yolov8模型的配置文件。原创 2024-10-10 10:36:43 · 4071 阅读 · 0 评论 -
YOLOv8模型改进 第四讲 添加多阶门控聚合模块Multi-Order Gated Aggregation和通道聚合模块CA block
这个是YOLOv8模型的该机,本次讲的模块是MogaNet中的多阶门控聚合模块Multi-Order Gated Aggregation和通道聚合模块CA block原创 2024-10-08 10:36:59 · 2478 阅读 · 5 评论 -
YOLOv8模型改进 第三讲 添加多核感知网络PKINet
遥感图像(RSIs)中的目标检测面临着一系列日益严峻的挑战,主要包括目标尺度的显著变化和背景的多样性。以往的方法通常通过增大骨干网络的空间感受野来应对这些问题,具体方法包括使用大卷积核或膨胀卷积。然而,使用大卷积核时,通常会引入大量的背景噪声,而膨胀卷积则可能导致特征表示过于稀疏。为了解决这些问题,本文提出了一种多核感知网络(PKINet)。PKINet,并有效捕捉局部背景信息。同时,文中并行引入了,以捕捉长距离的上下文信息。原创 2024-10-04 10:13:50 · 2887 阅读 · 2 评论 -
YOLOv8模型改进 第二讲 添加非局部注意力机制NonLocalBlockND
非局部注意力机制是一种有效捕捉输入特征图中所有位置之间关系的方法。它特别适合处理需要全局上下文信息的任务,与传统卷积神经网络(CNN)相比,非局部块不再局限于局部邻域的特征。首先,在我上传的代码中yolov8_improve中找到Non_Local.py代码部分,它包含两个部分一个是Non_Local注意力机制的核心代码,一个是yolov8模型的配置文件。1. 首先我们在modules文件夹下面创建Non_Local.py文件,然后将Non_Local注意力机制的核心代码放入其中。原创 2024-10-02 10:40:37 · 2438 阅读 · 2 评论 -
YOLOv8模型改进 第一讲 添加小目标检测头分支
首先,我们简单回顾一下YOLOv8的模型架构。YOLOv8继承了YOLO系列的特点,具有高效的特征提取能力和多尺度特征融合。通常情况下,YOLOv8会在不同尺度上进行检测,通常会有三个检测头,用于处理大、中、小不同尺度的目标。但对于非常小的目标,这三个尺度可能仍然不足以有效捕捉,因此我们考虑增加一个更精细的检测头,专门处理这些小目标。首先,在我上传的代码中yolo_improve中找到yolov8_smallhead.yaml文件部分,它是一个yolov8模型的配置文件,根据他搭建小目标检测头。原创 2024-09-30 10:20:44 · 13051 阅读 · 4 评论