![](https://img-blog.csdnimg.cn/10353983a3da4444a75de51f1c7d4e04.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
YOLOV8基础解析+创新改进+实战案例
文章平均质量分 96
YOLOV8基础解析+创新改进+实战案例: 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例
优惠券已抵扣
余额抵扣
还需支付
¥59.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
YOLO大王
专注于图像领域,主要研究内容包括计算机视觉和深度学习,特别是在图像分类、目标检测和图像生成等方面有深入的研究和实践经验。
展开
-
混淆矩阵与多分类混淆矩阵概念详解及其应用求 Precision F1-Score Recall
混淆矩阵,顾名思义,是一个由数字组成的矩阵,它告诉我们模型在哪些地方会出现混淆。它是分类模型预测性能的类别分布,也就是说,混淆矩阵是将预测结果映射到数据所属原始类别的一种有组织的方式。这也意味着,只有在已知输出分布的情况下,即在监督学习框架中,才能使用混淆矩阵。混淆矩阵不仅可以计算分类器的准确度(无论是全局准确度还是分类准确度),还有助于计算开发人员通常用来评估模型的其他重要指标。原创 2024-05-21 22:32:04 · 1012 阅读 · 0 评论 -
手把手教你搭建YOLOV8+CUDA环境,训练自定义数据集,训练推理验证导出。小白也能看得懂的!
YOLO(You Only Look Once)系列算法因其高效、准确等特点而备受瞩目。由2023年Ultralytics公司发布了YOLO的最新版本YOLOv8是结合前几代YOLO的基础上的一个融合改进版。本文主要介绍YOLOv8环境搭建/数据集获取/训练/推理/验证/导出/部署原创 2024-05-18 18:56:00 · 3040 阅读 · 1 评论 -
万字长文精解目标检测中的TP、FP、FN、TN、Precision、Recall 、 F1 Score、AP、mAP与AR 。附代码实现。
mAP(Mean Average Precision)是用于评估对象检测和信息检索系统性能的重要指标。它综合考虑了检测结果的精确度(Precision)和召回率(Recall),提供了一个整体的性能评价。你是否见过下面的表格?这是COCO版本的mAP(即平均精度,他们简称之为AP)。但这个指标到底代表什么呢?这些符号又都代表什么含义呢?在本文中,我们将详细讲解所有必要的理论知识,不仅帮助你解读表格中的数据,还能让你理解采用这种复杂指标的必要性。原创 2024-05-16 16:41:28 · 4483 阅读 · 2 评论 -
YOLOv8有效改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例
大家好!欢迎阅读本专栏。本专栏涵盖了C2f、主干网络、检测头、注意力机制、Neck等多种结构的创新,同时也包括了 YOLO相关的基础知识以及相关项目。原创 2024-05-06 10:20:34 · 25891 阅读 · 1 评论 -
写给初学者的YOLO目标检测 概述
目标检测(Object detection)是计算机视觉中使用的一种技术,用于识别和定位图像或视频中的对象。图像定位是指使用边界框(bounding boxes)来识别一个或多个对象的正确位置的过程,这些边界框对应于围绕对象的矩形形状。这个过程有时会与图像分类或图像识别混淆,后者旨在将图像或图像中的对象预测为类别或类别之一。下面的插图对应于上述解释的计算机视觉技术。在图像中检测到的对象是“人”。在本文中,将首先了解目标检测的优势,然后介绍最先进的目标检测算法YOLO。在第二部分中,我们将更加关注。原创 2023-04-27 09:36:27 · 15503 阅读 · 28 评论 -
【YOLOv8改进 - 特征融合】 GELAN:YOLOV9 通用高效层聚合网络,高效且涨点
当前的深度学习方法主要关注如何设计最合适的目标函数,以使模型的预测结果尽可能接近真实值。同时,还需设计合适的架构,以便获取足够的信息用于预测。现有方法忽略了一个事实:当输入数据经过逐层特征提取和空间变换时,会丢失大量信息。本文将深入探讨数据通过深度网络传输时的数据丢失这一重要问题,即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念,以应对深度网络实现多重目标所需的各种变化。PGI可以为目标任务提供完整的输入信息,以计算目标函数,从而获得可靠的梯度信息来更新网络权重。原创 2024-07-16 10:49:56 · 259 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】S2Attention : 整合空间位移和分割注意力
最近,基于MLP的视觉骨干网络开始出现。与CNN和视觉Transformer相比,具有较少归纳偏差的MLP架构在图像识别中表现出竞争力。其中,采用直接空间移位操作的空间移位MLP(S2-MLP)比包括MLP-mixer和ResMLP在内的早期工作取得了更好的性能。最近,使用较小的补丁和金字塔结构,Vision Permutator(ViP)和Global Filter Network(GFNet)在性能上超过了S2-MLP。本文中,我们改进了S2-MLP视觉骨干网络。原创 2024-07-16 17:28:07 · 536 阅读 · 0 评论 -
【YOLOv8改进- Backbone主干】YOLOv8 更换主干网络之EfficientNet,高效的卷积神经网络,降低参数量
卷积神经网络(ConvNets)通常在固定的资源预算下开发,如果有更多资源可用,则会进行扩展以提高准确性。在本文中,我们系统地研究了模型扩展,并发现仔细平衡网络的深度、宽度和分辨率可以带来更好的性能。基于这一观察,我们提出了一种新的扩展方法,使用一个简单但非常有效的复合系数均匀扩展深度、宽度和分辨率的所有维度。我们展示了这种方法在扩展MobileNets和ResNet时的有效性。原创 2024-07-15 23:00:05 · 829 阅读 · 0 评论 -
【YOLOv8改进 - 特征融合NECK】 GIRAFFEDET之GFPN :广义特征金字塔网络,高效地融合多尺度特征
在传统的目标检测框架中,通常采用从图像识别模型继承的主干网络来提取深层潜在特征,然后通过颈部模块融合这些潜在特征,以捕捉不同尺度的信息。由于目标检测中的分辨率远高于图像识别,主干网络的计算成本往往占据总推理成本的主要部分。这种重型主干设计范式主要是由于将图像识别模型转移到目标检测中时的历史遗留,而不是针对目标检测进行的端到端优化设计。在本研究中,我们表明这种范式确实导致了次优的目标检测模型。为此,我们提出了一种新颖的重型颈部范式,GiraffeDet,这是一种类长颈鹿的高效目标检测网络。原创 2024-07-16 10:33:56 · 386 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】Focused Linear Attention :全新的聚焦线性注意力模块
自注意力的二次计算复杂性在将Transformer模型应用于视觉任务时一直是一个持久的挑战。相比之下,线性注意力通过精心设计的映射函数来近似Softmax操作,提供了更高效的替代方案,其计算复杂性为线性。然而,目前的线性注意力方法要么遭受显著的性能下降,要么因映射函数引入了额外的计算开销。在本文中,我们提出了一种新颖的聚焦线性注意力模块,以实现高效率和高表现力。具体来说,我们首先从聚焦能力和特征多样性两个角度分析了线性注意力性能下降的因素。原创 2024-07-16 09:43:24 · 666 阅读 · 0 评论 -
【YOLOv8改进-SPPF】 Focal Modulation :使用焦点调制模块替代SPPF
我们提出了焦点调制网络(简称FocalNets),在其中完全用焦点调制模块替代了自注意力(SA),用于建模视觉中的标记交互。焦点调制由三个组件组成:(i)焦点上下文化,通过一系列深度卷积层实现,从短距离到长距离编码视觉上下文,(ii)门控聚合,选择性地将上下文聚合到每个查询标记的调制器中,以及(iii)逐元素仿射变换,将调制器注入查询标记。原创 2024-07-16 09:18:13 · 644 阅读 · 0 评论 -
【YOLOv8改进- Backbone主干】YOLOv8 更换主干网络之 PP-LCNet,轻量级CPU卷积神经网络,降低参数量
我们提出了一种基于MKLDNN加速策略的轻量级CPU网络,命名为PP-LCNet,它在多项任务中提高了轻量级模型的性能。本文列出了在延迟几乎不变的情况下能够提高网络准确性的技术。通过这些改进,PP-LCNet在相同推理时间内的分类准确性可以大大超过之前的网络结构。如图1所示,它的性能优于最先进的模型。在计算机视觉的下游任务中,如目标检测、语义分割等,它也表现得非常出色。我们所有的实验都是基于PaddlePaddle1进行的。代码和预训练模型可在PaddleClas2中找到。原创 2024-07-15 22:24:28 · 1031 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】RCS-OSA :减少通道的空间对象注意力,高效且涨点
摘要. 凭借出色的速度和准确性平衡,最前沿的YOLO框架已经成为目标检测最有效的算法之一。然而,使用YOLO网络进行脑肿瘤检测的性能鲜有研究。我们提出了一种基于通道Shuffle重参数化卷积的YOLO新架构(RCS-YOLO)。我们介绍了RCS和RCS的一次性聚合(RCS-OSA),将特征级联和计算效率结合起来,以提取更丰富的信息并减少时间消耗。在脑肿瘤数据集Br35H上的实验结果表明,所提出的模型在速度和准确性上超越了YOLOv6、YOLOv7和YOLOv8。原创 2024-07-16 09:57:42 · 632 阅读 · 0 评论 -
【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts,纯卷积神经网络,更快更准,,降低参数量!
视觉识别的“咆哮20年代”开始于视觉Transformer(ViTs)的引入,ViTs迅速取代了卷积神经网络(ConvNets)成为最先进的图像分类模型。然而,普通的ViT在应用于诸如目标检测和语义分割等一般计算机视觉任务时面临困难。分层Transformer(例如Swin Transformer)重新引入了几种ConvNet先验知识,使得Transformer在实际应用中成为通用的视觉骨干,并在各种视觉任务中表现出色。原创 2024-07-15 23:19:08 · 835 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】DoubleAttention: 双重注意力机制,全局特征聚合和分配
学习捕捉远程关系是图像/视频识别的基础。现有的CNN模型通常依赖于增加深度来建模这种关系,这效率极低。在这项工作中,我们提出了“双重注意力块”,这是一个新颖的组件,它从输入图像/视频的整个时空空间聚合和传播有用的全局特征,使后续的卷积层能够高效地访问整个空间的特征。该组件设计了两个步骤的双重注意力机制,第一步通过二阶注意力池化将整个空间的特征聚集到一个紧凑集,第二步通过另一个注意力自适应地选择和分配特征到每个位置。提出的双重注意力块易于采用,可以方便地插入现有的深度神经网络中。原创 2024-07-16 22:51:04 · 465 阅读 · 4 评论 -
【YOLOv8改进 -注意力机制】Mamba之MLLAttention :基于Mamba和线性注意力Transformer的模型
Mamba是一种具有线性计算复杂度的有效状态空间模型。它最近在处理各种视觉任务的高分辨率输入方面表现出了令人印象深刻的效率。在本文中,我们揭示了强大的Mamba模型与线性注意力Transformer共享令人惊讶的相似性,而线性注意力Transformer在实践中通常不如传统Transformer。通过探索高效的Mamba和表现欠佳的线性注意力Transformer之间的相似性和差异,我们提供了全面的分析,揭示了Mamba成功背后的关键因素。原创 2024-07-13 20:51:41 · 40 阅读 · 0 评论 -
【YOLOv8改进 - 卷积Conv】SPConv:去除特征图中的冗余,大幅减少参数数量 | 小目标
许多有效的解决方案已被提出以减少推理加速中模型的冗余。然而,常见的方法大多集中在消除不重要的滤波器或构建高效的操作上,而忽视了特征图中的模式冗余。我们揭示了在一个层内,许多特征图分享相似但不完全相同的模式。然而,确定具有类似模式的特征是否冗余或包含重要细节是困难的。因此,我们提出了一种基于分割的卷积操作,即SPConv,来容忍具有相似模式但需要较少计算的特征。原创 2024-07-13 20:37:52 · 45 阅读 · 0 评论 -
【YOLOv8改进- Backbone主干】2024最新轻量化网络MobileNetV4替换YoloV8的BackBone
摘要:我们介绍了最新一代的MobileNets,称为MobileNetV4(MNv4),其架构设计在移动设备上具有通用的高效性。核心是我们引入了通用倒置瓶颈(UIB)搜索模块,这是一种统一且灵活的结构,融合了倒置瓶颈(IB)、ConvNext、前馈网络(FFN)以及一种新颖的额外深度可分离(ExtraDW)变体。除了UIB,我们还介绍了Mobile MQA,一种专为移动加速器设计的注意力模块,提供显著的39%速度提升。我们还引入了一种优化的神经架构搜索(NAS)配方,提高了MNv4的搜索效率。UIB、Mob原创 2024-07-11 23:15:51 · 83 阅读 · 0 评论 -
【YOLOv8改进 - 卷积Conv】DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
许多当前的研究直接采用多速率深度扩张卷积,以同时从一个输入特征图中捕获多尺度上下文信息,从而提高实时语义分割的特征提取效率。然而,由于不合理的结构和超参数,这种设计可能导致难以获取多尺度上下文信息。为了降低获取多尺度上下文信息的难度,我们提出了一种高效的多尺度特征提取方法,将原来的单步方法分解为两个步骤:区域残差化-语义残差化。在这种方法中,多速率深度扩张卷积在特征提取中扮演了一个简单的角色:在第二步中基于第一步提供的每个简明区域形式的特征图,执行具有一个期望感受野的简单基于语义的形态滤波,以提高其效率。原创 2024-07-10 23:32:03 · 165 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】GAM(Global Attention Mechanism):全局注意力机制,减少信息损失并放大全局维度交互特征
为了提高各种计算机视觉任务的性能,研究了多种注意力机制。然而,现有方法忽视了保留通道和空间两个方面信息的重要性,以增强跨维度的交互。因此,我们提出了一种全局注意力机制,通过减少信息损失和放大全局交互表示来提升深度神经网络的性能。我们引入了带有多层感知器的3D排列用于通道注意力,同时结合了卷积空间注意力子模块。在CIFAR-100和ImageNet-1K上的图像分类任务评估中,表明我们的方法在ResNet和轻量级MobileNet上稳定地优于几种最新的注意力机制。原创 2024-07-10 23:23:52 · 207 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】ECA(Efficient Channel Attention):高效通道注意 模块,降低参数量
最近,通道注意力机制在提升深度卷积神经网络(CNNs)性能方面展现了巨大潜力。然而,大多数现有方法致力于开发更复杂的注意力模块以获得更好的性能,这不可避免地增加了模型的复杂性。为了克服性能与复杂性权衡的矛盾,本文提出了一种高效通道注意力(ECA)模块,该模块只涉及少量参数,同时带来了显著的性能提升。通过剖析SENet中的通道注意力模块,我们实验证明,避免维度缩减对于学习通道注意力非常重要,适当的跨通道交互可以在显著降低模型复杂性的同时保持性能。原创 2024-07-10 23:15:45 · 54 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】 CascadedGroupAttention:级联组注意力,增强视觉Transformer中多头自注意力机制的效率和有效性
视觉Transformer由于其强大的模型能力,已经展示了巨大的成功。然而,其显著的性能伴随着高计算成本,这使得它们不适合实时应用。在本文中,我们提出了一系列高速视觉Transformer,命名为EfficientViT。我们发现现有Transformer模型的速度通常受限于内存效率低的操作,尤其是MHSA中的张量重塑和元素级函数。因此,我们设计了一个新的构建块,采用三明治布局,即在高效的FFN层之间使用单个内存绑定的MHSA,以提高内存效率同时增强通道通信。原创 2024-07-02 23:32:55 · 74 阅读 · 0 评论 -
【YOLOv8改进 - 检测头】 RT-DETR检测头,解决传统目标检测器中非极大值抑制(NMS)所带来的速度和准确性之间的平衡问题
YOLO 系列因其在速度和准确性之间的合理平衡,已成为实时目标检测中最受欢迎的框架。然而,我们观察到 YOLO 的速度和准确性受到非极大值抑制(NMS)的负面影响。最近,基于 Transformer 的端到端检测器(DETRs)提供了一种替代方案来消除 NMS。然而,高计算成本限制了它们的实用性,并阻碍了它们充分利用不使用 NMS 的优势。在本文中,我们提出了实时检测 Transformer(RT-DETR),据我们所知,这是第一个解决上述困境的实时端到端目标检测器。原创 2024-07-02 22:47:16 · 96 阅读 · 0 评论 -
【YOLOv8改进 - 卷积Conv】DCNv4: 可变形卷积,动态与稀疏操作高效融合的创新算子
我们介绍了可变形卷积 v4(DCNv4),这是一种设计用于广泛视觉应用的高效和有效的算子。DCNv4通过两个关键增强来解决其前身 DCNv3 的限制:1. 在空间聚合中移除了softmax标准化,以增强其动态特性和表达能力;2. 优化内存访问,减少冗余操作以加快速度。这些改进使得DCNv4的收敛速度显著更快,处理速度大幅提升,前向速度比DCNv3提高了三倍以上。DCNv4在图像分类、实例和语义分割等各种任务中表现出色,特别是在图像生成领域。原创 2024-07-02 11:17:54 · 466 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】HCF-Net 之 DASI: 维度感知选择性整合模块 | 小目标
摘要——红外小目标检测是计算机视觉中的一项重要任务,涉及识别和定位红外图像中的微小目标,这些目标通常只有几个像素。然而,由于目标体积小且红外图像背景通常复杂,这项任务面临诸多挑战。本文提出了一种深度学习方法HCF-Net,通过多个实用模块显著提升红外小目标检测性能。具体而言,该方法包括并行化的感知补丁注意力(PPA)模块、维度感知选择性融合(DASI)模块和多膨胀通道优化(MDCR)模块。PPA模块使用多分支特征提取策略来捕捉不同尺度和层次的特征信息。DASI模块实现了自适应的通道选择和融合。原创 2024-07-02 09:36:02 · 125 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】HCF-Net 之 PPA:并行化注意力设计 | 小目标
摘要——红外小目标检测是计算机视觉中的一项重要任务,涉及识别和定位红外图像中的微小目标,这些目标通常只有几个像素。然而,由于目标体积小且红外图像背景通常复杂,这项任务面临诸多挑战。本文提出了一种深度学习方法HCF-Net,通过多个实用模块显著提升红外小目标检测性能。具体而言,该方法包括并行化的感知补丁注意力(PPA)模块、维度感知选择性融合(DASI)模块和多膨胀通道优化(MDCR)模块。PPA模块使用多分支特征提取策略来捕捉不同尺度和层次的特征信息。DASI模块实现了自适应的通道选择和融合。原创 2024-07-01 22:21:08 · 63 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】 MHSA:多头自注意力(Multi-Head Self-Attention)
我们介绍了BoTNet,这是一个概念简单但功能强大的骨干架构,将自注意力引入多个计算机视觉任务,包括图像分类、物体检测和实例分割。通过仅在ResNet的最后三个瓶颈块中用全局自注意力替换空间卷积,而不进行其他更改,我们的方法在实例分割和物体检测任务上显著提升了基线性能,同时减少了参数,延迟方面的开销也极小。通过设计BoTNet,我们还指出了带自注意力的ResNet瓶颈块可以视为Transformer块。原创 2024-07-01 21:51:01 · 217 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】HCF-Net 之 MDCR:多稀释通道细化器模块 ,以不同的稀释率捕捉各种感受野大小的空间特征 | 小目标
摘要——红外小目标检测是计算机视觉中的一项重要任务,涉及识别和定位红外图像中的微小目标,这些目标通常只有几个像素。然而,由于目标体积小且红外图像背景通常复杂,这项任务面临诸多挑战。本文提出了一种深度学习方法HCF-Net,通过多个实用模块显著提升红外小目标检测性能。具体而言,该方法包括并行化的感知补丁注意力(PPA)模块、维度感知选择性融合(DASI)模块和多膨胀通道优化(MDCR)模块。PPA模块使用多分支特征提取策略来捕捉不同尺度和层次的特征信息。DASI模块实现了自适应的通道选择和融合。原创 2024-07-01 16:45:05 · 58 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】LS-YOLO MSFE:新颖的多尺度特征提取模块 | 小目标/遥感
摘要——滑坡是一种广泛且具有毁灭性的自然灾害,对人类生命、安全和自然资产构成严重威胁。研究利用遥感影像进行滑坡精准检测的高效方法具有重要的学术和实际意义。本文提出了一种新颖且有效的滑坡检测模型LS-YOLO,利用遥感影像进行滑坡检测。我们首先构建了一个多尺度滑坡数据集(MSLD),并在数据增强中引入随机种子以增加数据的鲁棒性。考虑到遥感影像中滑坡的多尺度特性,设计了基于高效通道注意力、平均池化和空间可分离卷积的多尺度特征提取模块。为了增加模型的感受野,在解耦头中采用了膨胀卷积。原创 2024-07-01 09:45:39 · 211 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】NAM:基于归一化的注意力模块,将权重稀疏惩罚应用于注意力机制中,提高效率性能
识别较不显著的特征是模型压缩的关键。然而,这在革命性的注意力机制中尚未被研究。在这项工作中,我们提出了一种新颖的基于归一化的注意力模块(NAM),该模块抑制了较不显著的权重。它对注意力模块施加了权重稀疏惩罚,从而使其在保留相似性能的同时变得更具计算效率。在Resnet和Mobilenet上与其他三种注意力机制的比较表明,我们的方法可以带来更高的准确性。本文的代码可以在https://github.com/Christian-lyc/NAM公开获取。原创 2024-06-30 17:35:57 · 64 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力
在本文中,我们提出了一种概念上简单但非常有效的卷积神经网络(ConvNets)注意力模块。与现有的通道注意力和空间注意力模块不同,我们的模块为特征图推断3D注意力权重,而无需向原始网络添加参数。具体来说,我们基于一些知名的神经科学理论,提出通过优化能量函数来找出每个神经元的重要性。我们进一步推导出一个快速的闭式解,并展示该解可以在不到十行代码中实现。该模块的另一个优点是大多数操作符是基于能量函数的解选择的,避免了大量结构调整的工作。原创 2024-06-30 17:07:56 · 71 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】SKAttention:聚合分支信息,实现自适应调整感受野大小
在标准卷积神经网络(CNNs)中,每一层的人工神经元的感受野大小被设计为相同。然而,神经科学界已知视觉皮层神经元的感受野大小会受到刺激的调节,这一点在构建CNN时很少被考虑。我们提出了一种动态选择机制,使每个神经元能够基于多尺度的输入信息自适应地调整其感受野大小。我们设计了一个称为选择性卷积(Selective Kernel,SK)单元的构建块,在该单元中,具有不同卷积核大小的多个分支通过受这些分支信息引导的softmax注意力融合。在融合层中,这些分支上的不同注意力产生了神经元的不同有效感受野大小。原创 2024-06-30 11:33:43 · 45 阅读 · 0 评论 -
【YOLOv8改进 - 卷积Conv】RefConv:重新参数化的重聚焦卷积模块
我们提出了重新参数化再聚焦卷积(Re-parameterized Refocusing Convolution, RefConv)作为常规卷积层的替代方案,这是一种即插即用的模块,可以在不增加推理成本的情况下提高性能。具体来说,对于一个预训练模型,RefConv对从预训练模型继承的基础卷积核应用一个可训练的再聚焦转换,以在参数之间建立连接。例如,深度卷积的RefConv可以将特定通道的卷积核参数与其他卷积核的参数关联起来,即使它们重新聚焦于模型的其他部分,而不仅仅关注于输入特征。原创 2024-06-28 16:05:09 · 73 阅读 · 0 评论 -
【YOLOv8改进 - 特征融合NECK】ASF-YOLO:SSFF融合+TPE编码+CPAM注意力,提高检测和分割能力
我们提出了一种新颖的基于注意力尺度序列融合的YOLO框架(ASF-YOLO),该框架结合了空间和尺度特征,用于准确且快速的细胞实例分割。在YOLO分割框架的基础上,我们采用了尺度序列特征融合(SSFF)模块来增强网络的多尺度信息提取能力,并使用三重特征编码器(TFE)模块来融合不同尺度的特征图以增加细节信息。我们进一步引入了通道和位置注意力机制(CPAM)来整合SSFF和TFE模块,专注于信息丰富的通道和与空间位置相关的小物体,从而提高检测和分割性能。原创 2024-06-28 14:25:19 · 128 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】Triplet Attention:轻量有效的三元注意力
得益于在通道或空间位置之间构建相互依赖关系的能力,注意力机制在最近被广泛研究并广泛应用于各种计算机视觉任务中。在本文中,我们研究了轻量但有效的注意力机制,并提出了三重注意力,这是一种通过使用三分支结构捕获跨维度交互来计算注意力权重的新方法。对于输入张量,三重注意力通过旋转操作及后续的残差变换构建维度间依赖关系,并以可忽略的计算开销编码通道间和空间信息。我们的方法简单且高效,可以作为附加模块轻松插入经典骨干网络中。原创 2024-06-26 22:08:23 · 424 阅读 · 0 评论 -
【YOLOv8改进 - 特征融合】DySample :超轻量级且高效的动态上采样器
AKConv(可改变核卷积),主要用来解决传统卷积中固有的缺陷。传统卷积中,每个神经元只关注输入数据中一个固定大小的局部区域,而不能有效地捕捉到其他窗口的信息。这在处理全局上下文信息时可能会限制网络的性能。传统卷积网络中的卷积核大小通常是固定的(如 3x3, 5x5)。这种固定尺寸的核可能不适合捕捉所有尺度的特征。例如,较小的核可能适合捕捉细粒度的特征,而较大的核可能更适合捕捉更宽泛的特征。固定的卷积核尺寸和结构限制了网络在处理多尺度特征时的灵活性和有效性。原创 2024-06-26 15:21:38 · 1057 阅读 · 0 评论 -
【YOLOv8改进 - 注意力机制】c2f结合CBAM:针对卷积神经网络(CNN)设计的新型注意力机制
我们提出了卷积块注意力模块(Convolutional Block Attention Module,CBAM),这是一种简单但有效的用于前馈卷积神经网络的注意力模块。给定一个中间特征图,我们的模块依次推断沿两个独立维度(通道和空间)的注意力图,然后将注意力图与输入特征图相乘以进行自适应特征优化。由于CBAM是一个轻量且通用的模块,可以无缝地集成到任何卷积神经网络(CNN)架构中,且开销可以忽略不计,并能够与基础CNN进行端到端训练。原创 2024-06-25 10:00:18 · 81 阅读 · 0 评论 -
【YOLOv8改进 - 特征融合】CARAFE:轻量级新型上采样算子,助力细节提升
特征上采样是许多现代卷积网络架构中的关键操作,例如特征金字塔。其设计对于密集预测任务(如目标检测和语义/实例分割)至关重要。在这项工作中,我们提出了内容感知特征重组(CARAFE),这是一种通用、轻量且高效的操作符,以实现这一目标。CARAFE 具有以下几个吸引人的特性:(1)大视野。与之前的工作(例如双线性插值)仅利用子像素邻域不同,CARAFE 可以在大的感受野内聚合上下文信息。(2)内容感知处理。原创 2024-06-22 18:56:32 · 145 阅读 · 0 评论 -
【YOLOv8改进 - 特征融合NECK】Slim-neck:目标检测新范式,既轻量又涨点
目标检测是计算机视觉中的一项重要下游任务。对于车载边缘计算平台来说,巨大的模型难以满足实时检测的要求,而由大量深度可分离卷积层构建的轻量化模型无法达到足够的准确性。我们引入了一种新的轻量级卷积技术,GSConv,以减轻模型的重量但保持准确性。GSConv 在模型的准确性和速度之间实现了出色的平衡。我们还提供了一种设计范式,称为 slim-neck,以实现检测器更高的计算成本效益。我们的方法在超过二十组比较实验中得到了稳健验证。原创 2024-06-22 10:38:54 · 185 阅读 · 0 评论 -
【YOLOv8改进 - 特征融合NECK】 HS-FPN :用于处理多尺度特征融合的网络结构,降低参数
在标准的医院血液检测中,传统过程需要医生使用显微镜从患者的血液显微图像中手动分离白细胞。然后,这些分离出的白细胞通过自动白细胞分类器进行分类,以确定血液样本中不同类型白细胞的比例和数量,从而辅助疾病诊断。这种方法不仅耗时费力,而且由于图像质量和环境条件等因素,容易出现错误,从而可能导致后续分类不正确和误诊。现代白细胞检测方法在处理具有较少白细胞特征的图像和不同白细胞规模差异方面存在局限性,导致大多数情况下结果不尽如人意。原创 2024-06-22 10:05:34 · 353 阅读 · 0 评论