【读点论文】GhostNetV3: Exploring the Training Strategies for Compact Models,感觉是调参作品,知识蒸馏,学习率调整,EMA,重参数...

GhostNetV3: Exploring the Training Strategies for Compact Models

Abstract

  • 紧凑型神经网络是专门为边缘设备上的应用而设计的,具有更快的推理速度和适度的性能。然而,目前紧凑型模型的训练策略是从传统模型中借鉴的,这忽略了它们在模型容量上的差异,从而可能会阻碍紧凑模型的性能。在本文中,通过系统地研究不同训练成分的影响,我们为紧凑模型引入了一种强训练策略。我们发现,重新参数化和知识提取的适当设计对于训练高性能紧凑型模型至关重要,而用于训练传统模型的一些常用数据增强,如Mixup和CutMix,会导致较差的性能。我们在ImageNet-1K数据集上的实验表明,我们针对紧凑模型的专门训练策略适用于各种架构,包括GhostNetV2、MobileNetV2和ShuffleNetV2。具体来说,配备了我们的策略,GhostNetV3 1.3×在移动设备上仅用2.69亿个FLOP和14.46毫秒的延迟就实现了79.1%的top 1准确率,大大超过了通常训练的同类产品。此外,我们的观察还可以扩展到物体检测场景。PyTorch代码和 checkpoint 可以在https://github.com/huawei-noah/Efficient-AI-Backbones .
  • 论文地址:[2404.11202] GhostNetV3: Exploring the Training Strategies for Compact Models (arxiv.org)
  • GhostNetV3是华为诺亚方舟实验室继GhostNet和GhostNetV2之后的作品。它不仅继承了前代模型在保持低参数量和推理速度方面的优势,更通过训练策略,实现了性能的显著提升。为了充分发挥轻量化模型的潜力,研究团队系统地研究了多种训练策略,包括重新参数化、知识蒸馏、学习计划和数据增强等。

Introduction

  • 为了满足边缘设备(如移动电话)有限的内存和计算资源,已经开发了各种高效的架构。例如,MobileNetV1使用深度可分离卷积来降低计算成本。MobileNetV2引入了残差连接,MobileNetV3通过神经架构搜索(NAS)进一步优化了架构配置,显著提高了模型的性能。另一个典型的架构是GhostNet,它利用特征中的冗余,并通过使用廉价的操作来复制特征的通道。最近,GhostNet V2进一步集成了硬件友好的注意力模块,以捕捉长程像素之间的依赖性,并显著优于GhostNet。

  • 除了精心设计的模型架构外,适当的训练策略对于显著的性能也是至关重要的。例如,[Resnet strikes back: An improved training procedure in timm]通过集成先进的优化和数据增强方法,将ImageNet-1K上ResNet-50的 top 1位精度从76.1%提高到80.4%。然而,尽管已经做出了相当大的努力来探索传统模型(例如,ResNet和Vision Transformer)的更先进的训练策略,但很少关注紧凑模型。由于具有不同能力的模型可能具有不同的学习偏好[Efficientnetv2],因此直接应用为传统模型设计的策略来训练紧凑型模型是不合适的

  • 为了弥补这一差距,我们系统地研究了紧凑型模型的几种训练策略。具体而言,我们的主要注意力集中在先前工作[Bag of tricks for image classification with convolutional neural networks,Training data-efficient image transformers & distillation through attention]中讨论的关键训练设置上,包括重新参数化、知识提取(KD)、学习计划和数据扩充。

  • 重参数化。深度卷积和1×1卷积是紧凑模型架构中的常见组件,因为它们的内存和计算消耗可以忽略不计。受训练传统模型[Diverse branch block: Building a convolution as an inception-like unit,Repvgg]的成功经验的启发,我们对这两个紧凑模块采用了重新参数化方法,以获得更好的性能。在训练紧凑模型时,我们将线性并行分支引入深度卷积和1×1卷积。这些额外的并行分支可以在训练后重新参数化,在推理时不会带来额外的成本。为了权衡整体培训成本与绩效改进,我们比较了不同数量的新增分支机构的影响。此外,我们发现1×1深度卷积分支对3×3深度卷积的重新参数化有显著的积极影响。

  • 知识蒸馏。紧凑型神经网络模型由于其有限的模型容量,难以实现与传统模型相当的性能。因此,KD 采用更大的模型作为教师来指导紧凑模型的学习,是提高性能的合适方法。我们实证研究了使用 KD 训练紧凑模型时几个典型因素的影响,如教师模型的选择和超参数的设置。结果表明,适当的教师模型可以显著提高紧凑模型的性能。

  • 学习计划和数据扩充。我们比较了紧凑模型的几种训练设置,包括学习率、权重衰减、指数移动平均(EMA)和数据扩充。有趣的是,并非所有为传统模型设计的技巧都适用于紧凑型车型。例如,一些广泛使用的数据增强方法,如Mixup和CutMix,实际上会降低紧凑型模型的性能。我们将在第后文中详细讨论它们的效果。

  • 基于我们的调查,我们为紧凑型模型开发了一个专门的训练配方。在ImageNet-1K数据集上的实验验证了我们提出的配方的优越性。具体而言,用我们的配方训练的GhostNetV2模型在top 1级精度和延迟方面显著优于用以前的策略训练的模型(下图)。在MobileNetV2和ShuffleNetV2等其他高效架构上的实验进一步证实了所提出的配方的可推广性。

    • 在这里插入图片描述

    • ImageNet数据集上各种紧凑模型的前1验证精度和CPU延迟。

Related works

Compact models

  • 设计一种同时具有低推理延迟和高性能的紧凑模型架构是一项挑战。SqueezeNet提出了三种策略来设计紧凑的模型,即用1×1个 filers 替换3×3个 filers ,将输入通道的数量减少到3×3滤波器,以及在网络后期下采样以保持大的特征图。这些原理是有建设性的,尤其是1×1卷积的使用。MobileNetV1用1×1内核和深度可分离卷积替换了几乎所有的 filers,这大大降低了计算成本。MobileNetV2进一步将残差连接引入紧凑模型,并构建了一个反向残差结构,其中块的中间层具有比其输入和输出更多的通道。为了保持表示能力,去除了一部分非线性函数。MobileNeXt重新思考了反向瓶颈的必要性,并声称经典的瓶颈结构也可以实现高性能。考虑到1×1卷积占了很大一部分计算成本,ShuffleNet将其替换为群卷积。通道混洗操作有助于信息在不同组之间流动。通过研究影响实际运行速度的因素,ShuffleNetV2提出了一种新的硬件友好块。
  • MnasNet和MobileNetV3搜索架构参数,如模型宽度、模型深度、卷积滤波器的大小等。通过利用特征的冗余,GhostNet用廉价的操作取代了1×1卷积中的半通道。GhostNetV2提出了一种基于全连接层的DFC注意力,它不仅可以在通用硬件上快速执行,还可以捕捉长程像素之间的依赖关系。到目前为止,GhostNet系列仍然是SOTA紧凑型,在精度和速度之间有着良好的平衡。
  • 自从ViT(DeiT)在计算机视觉任务上取得了巨大成功以来,研究人员一直致力于为移动设备设计紧凑的 Transformer 架构。MobileFormer提出了一种紧凑的交叉注意力来建模MobileNet和transformer之间的双向桥梁。MobileViT借鉴了紧凑型卷积神经网络的成功经验,用使用 Transformer 的全局处理取代了卷积中的局部处理。然而,由于复杂的注意力操作,基于 Transformer 的紧凑模型在移动设备上存在高推理延迟。

Bag of tricks for training CNNs

  • 有一些工作侧重于改进训练策略,以提高各种模型的性能。He等人[Bag of tricks for image classification with convolutional neural networks]讨论了几种有助于在硬件上进行有效训练的技巧,并为ResNet提出了一种新的模型架构调整。Wrightman等人[ Resnet strikes back: An improved training procedure in timm]在使用新的优化和数据增强方法进行训练时,重新评估了ResNet-50的性能。他们共享timm开源库中的竞争性训练设置和预训练的模型。通过他们的训练配方,ResNet-50模型达到了80.4%的前1名准确率。Chen等人[An empirical study of training self-supervised vision transformers]研究了几个基本组件对训练自监督ViT的影响。然而,所有这些尝试都是为大型模型或自监督模型设计的。由于它们的模型容量不同,直接将它们转移到紧凑型模型是不合适的[Efficientnetv2]。

Preliminary

  • GhostNets(GhostNetV1和GhostNetV2)是为在移动设备上进行高效推理而设计的最先进的紧凑型模型。他们的关键架构是Ghost模块,它可以通过廉价的操作生成更多的特征图来取代原来的卷积。在普通卷积中,输出特征Y由 Y=X*W 获得,其中 W ∈ R c o u t × c i n × k × k W∈\R ^{c_{out}×c_{in}×k×k} WRcout×cin×k×k 是卷积核,X是输入特征。 c i n c_{in} cin c o u t c_{out} cout 分别表示输入和输出通道维度。k是核大小,*表示卷积运算。Ghost模块在两个步骤中减少了普通卷积的参数数量和计算成本。它首先产生固有特征Y′,其通道维度小于原始特征Y。然后对本征特征Y′应用廉价运算(例如,深度卷积)来生成重影特征Y′′′。最终输出是通过沿着通道维度连接固有特征和重影特征来获得的,其可以公式化为:

    • Y ’ = X ∗ W p , Y = C a t ( Y ’, X ∗ W c ) Y’=X\ast W_p,\\Y=\rm Cat(Y’,X\ast W _c) Y=XWpY=CatY’XWc

    • 其中 W p W_p Wp W c W_c Wc 分别表示初级卷积和廉价运算中的参数。“Cat”表示串联操作。通过堆叠多个Ghost模块来构建整个GhostNet模型。

  • GhostNetV2通过设计高效的注意力模块,即DFC注意力,增强了紧凑型模型。考虑到像GhostNet这样的紧凑模型通常使用小的核卷积,例如1×1和3×3,它们从输入特征中提取全局信息的能力较弱。GhostNetV2采用简单的全连接层来捕获长程空间信息并生成注意力图。为了提高计算效率,它将全局信息解耦为水平方向和垂直方向,并分别沿这两个方向聚合像素。如图a所示,通过为Ghost模块配备DFC注意力,GhostNetV2可以有效地提取全局和局部信息,同时在准确性和计算复杂性之间实现更好的权衡。

    • 在这里插入图片描述

    • GhostNetV2和GhostNetV3的体系结构,GhostNetV3采用了训练时重参数化方法,通过使用深度可分离卷积和点群卷积提升模型的学习能力,同时不引入额外的推理阶段参数数量和计算复杂度。具体的,作者们对3×3深度卷积和1×1卷积模块使用重参数化操作,并且发现直连(identity)分支对提升模型性能具有正面作用。

  • 针对轻量化模型的特点,研究团队探索了适用于小模型的训练策略。一方面,通过比较不同的学习率及学习率衰减策略的组合,找到最优配置;另一方面,重新考量数据增强技术,探索对轻量化模型更有效的数据增强方法。

Training strategies

  • 我们的目标是在不改变推理网络架构的情况下探索训练策略,以保持紧凑模型的小模型大小和快速度。我们实证研究了训练神经网络的关键因素,包括学习计划、数据扩充、重新参数化和知识提取。

Re-parameterization

  • 重新参数化已在传统卷积模型中证明了其有效性。受其成功的启发,我们通过添加配备BatchNorm层的重复分支,将重新参数化引入紧凑型模型。我们重新参数化GhostNetV2的设计如图b所示。值得注意的是,我们在重新参数化的3×3深度卷积中引入了1×1深度卷积分支。实验结果证实了它对紧凑型模型性能的积极影响。此外,实验还深入探讨了重复分支的最佳数量。
  • 在推理时,可以通过反向重新参数化过程去除重复分支。由于卷积和BatchNorm运算在推理过程中都是线性的,因此它们可以折叠成单个卷积层,其权重矩阵表示为 W ˉ ∈ R c o u t × c i n × k × k \bar W ∈ \R^{c_{out}×c_{in}×k×k} WˉRcout×cin×k×k 和偏置表示为 b ˉ ∈ R c o u t \bar b ∈ \R^{c_{out}} bˉRcout。之后,所有分支中的折叠权重和偏差可以重新参数化为 W r e p = ∑ i W ˉ i W_{rep}=\sum_i\bar W_i Wrep=iWˉi 和偏置 b r e p = ∑ i b ˉ i b_{rep}=\sum_i\bar b_i brep=ibˉi,其中 i 是重复分支的索引。

Knowledge distillation

  • KD 是一种广泛使用的模型压缩方法,将预先训练好的大型教师模型的预测作为小型学生模型的学习目标。给定一个带有标签 y 的样本 x,表示学生和教师模型分别使用Γs(x)和Γt(x)预测的相应logits,KD的总损失函数可以公式化为:

    • L total =( 1 − α ) L ce ( Γ s ( x ), y ) + α L kd ( Γ s ( x ), Γ t ( x )) \mathcal{L}_{\text{total}}=(1-\alpha)\mathcal{L}_{\text{ce}}(\Gamma_\text{s}(x),y)+\alpha\mathcal{L}_{\text{kd}}(\Gamma_\text{s}(x),\Gamma_\text{t}(x)) Ltotal=(1αLceΓsx),y+αLkdΓsx),Γtx))

    • 其中 L c e L_{ce} Lce L k d L_{kd} Lkd 分别表示交叉熵损失和KD损失。α是一个平衡超参数。通常采用Kullback-Leibler散度函数作为KD损失,可以表示为:

    • L kd = τ 2 ⋅ KL(softmax ( Γ s ( x ) ) / τ ,softmax( Γ t ( x ) / τ ) \mathcal{L}_{\text{kd}}=\tau^2\cdot\text{KL}(\text{softmax}(\Gamma_\text{s}(x))/\tau,\text{softmax}(\Gamma_\text{t}(x)/\tau) Lkdτ2KLsoftmax(Γs(x))/τsoftmaxΓt(x)/τ)

    • 其中 τ τ τ 是称为温度的标签平滑超参数。在我们的实验中,我们研究了超参数α和τ的不同设置对紧凑模型性能的影响。

Learning schedule

  • 学习率是神经网络优化中的一个关键参数。有两种常用的学习速率表:step and cosine。阶梯计划线性地降低学习速率,而余弦计划在开始时缓慢地降低学习率,在中间几乎变为线性,并且在结束时再次变慢。这项工作广泛研究了学习率和学习率时间表对紧凑模型的影响。

  • 指数移动平均(EMA)最近成为提高验证准确性和提高模型稳健性的有效方法。具体地说,它在训练时间内逐渐平均模型的参数。假设步骤t的模型参数为Wt,则模型的EMA计算为:

    • W ‾ t = β ⋅ W ‾ t − 1 + ( 1 − β ) ⋅ W t \overline{\mathbf{W}}_t=\beta\cdot\overline{\mathbf{W}}_{t-1}+(1-\beta)\cdot\mathbf{W}_t Wt=βWt1+1βWt

    • 其中 W ‾ t \overline W_t Wt 表示步骤 t 处的EMA模型的参数,并且 β 是超参数。我们在第5.3节中研究了EMA的影响。

Data augmentation

  • 已经提出了各种数据增强方法来提高传统模型的性能。其中,AutoAug方案采用了25个子策略的组合,每个子策略包含两个 transformations。对于每个输入图像,随机选择子策略组合,并通过一定的概率来决定是否在子策略中应用每个 transformations。RandomAug方法提出了一种随机增强方法,其中所有子策略都以相同的概率选择。像 Mixup 和 CutMix 这样的图像混叠方法融合两个图像以生成新图像。具体而言,Mixup在示例对及其标签的凸组合上训练神经网络,而 CutMix 从一张图像中随机移除一个区域,并用另一张图像的补丁替换相应的区域。随机擦除随机选择图像中的矩形区域,并用随机值替换其像素。在本文中,我们评估了上述数据增强方法的各种组合,发现一些常用的用于训练传统模型的数据增强方法,如Mixup和CutMix,不适合训练紧凑模型。

Experimental results

  • 在我们的基本训练策略中,我们使用2048的小批量大小,并使用LAMB[Large batch optimization for deep learning: Training bert in 76 minutes]在600个时期内进行模型优化。初始学习率为0.005,采用余弦学习计划。权重衰减和动量分别设置为0.05和0.9。我们对指数移动平均(EMA)使用0.9999的衰减因子,其中应用随机增强和随机擦除来进行数据增强。在本节中,我们将探讨这些训练策略,并揭示训练紧凑型模型的见解。所有实验都是在ImageNet数据集上使用8个NVIDIA特斯拉V100 GPU进行的。

Re-parameterization

  • 为了更好地理解将重新参数化集成到紧凑模型训练中的优势,我们进行了一项消融研究,以评估重新参数化对不同尺寸GhostNetV2的影响。结果如下表所示。与直接训练原始GhostNetV2模型相比,在保持其他训练设置不变的情况下,重新参数化的采用显著提高了性能。
    • 在这里插入图片描述

    • 使用或不使用重新参数化训练的GhostNetV2模型的不同版本的Top-1精度。

  • 此外,我们比较了重新参数化因子 N 的不同配置,结果如下表所示。如结果所示,1×1深度卷积在重新参数化中起着至关重要的作用。如果在重新参数化的模型中不使用1×1深度卷积,其性能甚至会随着分支数量的增加而降低。相反,当配备1×1深度卷积时,GhostNetV3模型在N为3时实现了77.6%的峰值top-1精度,并且进一步增加N的值不会带来额外的性能改进。因此,在随后的实验中,重新参数化因子N被设置为3,以获得更好的性能。
    • 在这里插入图片描述

    • 重新参数化因子N的不同值的前1精度的比较。“DW”表示深度卷积。

Knowledge distillation

  • 在本节中,我们将评估知识提取对GhostNetV3性能的影响。具体而言,采用ResNet-101、DeiT-B和BeiTV2B作为教师,分别获得77.4%、81.8%和86.5%的前1准确率。下表中的结果突出了不同教师模型的表现差异。值得注意的是,出色的教师表现与GhostNetV3表现的改善相关,这突出了表现良好的教师模型在紧凑模型的知识提取中的重要性

    • 在这里插入图片描述

    • 不同教师的Top-1准确性与α在知识提炼方面的准确性比较。

  • 此外,我们还比较了以BEiTV2-B为教师的KD损失中超参数的不同设置。下表中的结果表明,低温值对于紧凑型模型是优选的。此外,值得注意的是,当单独使用KD损失(即α=1.0)时,前1位的精度明显下降。

    • 在这里插入图片描述

    • 知识蒸馏中不同α和温度 τ 的Top-1精度比较

  • 我们还探讨了重新参数化和知识提取相结合对GhostNetV2性能的影响。如下表所示,结果表明,由于利用了知识蒸馏,性能显著提高(高达79.13%)。此外,它还强调了1×1深度卷积在重新参数化中的重要性。这些发现强调了研究各种技术及其潜在组合以提高紧凑型模型性能的重要性。

    • 在这里插入图片描述

    • 将重新参数化和知识提取相结合的Top-1精度的比较。

Learning schedule

  • Learning rate schedule. 下图展示了采用不同学习率调度方案的实验结果,包括有无重新参数化和知识提取。据观察,无论是小学习率还是大学习率都会对成绩产生不利影响。因此,为最终实验选择5e-3的学习率。

    • 在这里插入图片描述

    • GhostNetV2的各种学习率的前1验证准确性。

  • 下表中比较了 step and cosine 学习速率计划。可以观察到,余弦学习速率调度实现了最高的top-1精度。这突出了精心设计的余弦学习率计划在提高紧凑型模型性能方面的有效性。

    • 在这里插入图片描述

    • GhostNetV2的不同学习率计划的前1准确性。“余弦”后面的数字表示学习率的最小值。

  • Weight decay. 重量衰减对GhostNetV2的前1精度的影响如下表所示。结果表明,较大的权重衰减显著降低了模型的性能。因此,考虑到GhostNetV2对紧凑型模型的有效性,我们保留了其0.05的权重衰减值。

    • 在这里插入图片描述

    • 在ImageNet数据集上使用不同的权重衰减设置实现了Top-1的精度。

  • EMA。在下图中,可以观察到,当EMA的衰减为0.99999时,无论是否使用重新参数化和知识提取技术,性能都会下降。我们推测,这是由于当衰减值太大时,当前迭代的减弱效应。对于紧凑型模型,0.9999或0.99995的衰减值被认为是合适的,这与传统模型的衰减值相似

    • 在这里插入图片描述

    • EMA的各种衰减值达到了前1的精度。

Data Augmentation

  • 为了比较不同的数据扩充方案对轻量级模型性能的影响,我们在不同的扩充策略下训练基于cnn的GhostNetV2和基于ViT的DeiT微小模型。结果如下表所示。可以观察到,随机增强和随机擦除对于GhostNetV2和DeiT-mini都是有利的。相反,Mixup和CutMix具有不利影响,因此被认为不适合紧凑型模型。
    • 在这里插入图片描述

    • GhostNetV2和DeiT-mini上不同数据增强方案组合的比较结果。

Comparison with other compact models

  • 在本节中,我们将GhostNetV3与其他紧凑型模型在参数、FLOP、CPU和手机延迟方面进行比较。具体来说,我们在配备3.2GHz Intel i7-8700处理器的Windows桌面上运行这些型号来测量CPU延迟,并使用配备麒麟9000 CPU的华为Mate40Pro来评估输入分辨率为224×224的配置下的手机延迟。为了确保最低的延迟和最高的一致性,CPU和手机上的所有其他应用程序都关闭了。每个模型执行100次,以获得可靠的结果。

  • 下表提供了GhostNetV3与其他紧凑型模型的详细比较,其参数计数低于20M。从结果来看,最小的基于转换器的架构在移动设备上进行推理需要12.5ms的延迟,而其前1名的准确率仅为69.0%。相比之下,GhostNetV3以7.81ms的显著较低延迟实现了77.1%的前1级准确率。目前最先进的模型MobileFormer实现了79.3%的前1级精度,延迟为129.58ms,这在现实世界的应用中是负担不起的。相比之下,GhostNetV3 1.6倍的准确率达到80.4%,延迟显著降低18.87ms,比MobileFormer快6.8倍。

    • 在这里插入图片描述

    • ImageNet数据集上的各种紧凑模型实现的Top-1精度。

  • 接下来,我们将GhostNetV3与其他基于CNN的紧凑型模型进行比较,包括MobileNets、ShuffleNets、MixNet、MNASNet、FBNet、EfficientNet和MobileOne,其中FBNet、MNASNet和MobileNetV3是基于搜索的模型,其他是手动设计的模型。具体来说,FBNet采用硬件搜索策略,而MNASNet和MobileNetV3则搜索架构参数,如模型宽度、模型深度、卷积滤波器的大小等。

  • 与MobileNetV2相比,GhostNetV2 1.0×实现了5.1%的改进,同时保持了几乎相同的延迟(7.81ms对7.96ms)。与MobileNeXt和EfficientNet-B0(分别为3.0%和2.8%)相比,GhostNetV2 1.3×也显示出提高的前1级精度。特别是,与强大的手动设计的MobileOne模型相比,GhostNetV3 1.0×在前1级精度方面优于MobileOne-S1 1.2%,仅需一半的延迟。GhostNetV3 1.3×的性能也比MobileOne-S2高1.7%,而延迟仅为60%。此外,当GhostNet 1.6×比MobileOne-S4实现更高的top-1精度(80.4%对79.4%)时,MobileOne在CPU上的延迟比GhostNet V3慢2.8倍。

  • 当将GhostNetV3 1.0×与基于搜索的紧凑型模型进行比较时,它比FBNet-C citefbnet高2.2%,在CPU和手机上的推理速度更快。此外,与MobileNetV3和MNASNet相比,GhostNetV3 1.0×提供了1.9%的前1级准确率优势,同时保持了类似的延迟。结果表明,与现有的手动设计和基于搜索的体系结构设计方法相比,我们提出的训练策略在获得优秀的紧凑模型方面具有优势。

  • 下图显示了各种紧凑型模型的综合性能比较。左图和右图分别显示了在手机上测量的FLOP和延迟。值得注意的是,我们经过训练的GhostNetV2在移动设备上表现出了延迟和前1精度之间的最佳平衡,因此脱颖而出。

    • 在这里插入图片描述

    • FLOP和手机上紧凑型的延迟。

  • 其他紧凑型模型:为了进一步证明所提出的训练策略的可扩展性,我们将它们应用于另外两个广泛使用的紧凑型模型的训练:ShuffleNetV2和MobileNetV2。下表中的结果表明,我们提出的策略可以将ShuffleNetV2和MobileNetV2的前1精度分别提高2.2%和3.0%。

Extend to object detection

  • 为了研究训练收据是否适用于其他数据集,我们将实验扩展到COCO上的对象检测任务,以验证其泛化能力。结果如下表所示。值得注意的是,来自分类任务的见解适用于对象检测任务。例如,在两种使用的分辨率设置下,GhostNetV3模型分别比GhostNetV2高0.4和0.5的mAP。此外,GhostNetV3的性能优于MobileNetV2,同时推理所需的FLOP更少。
    • 在这里插入图片描述

    • GhostNetV3在对象检测方面的性能。

Conclusion

  • 在本文中,我们对旨在提高现有紧凑型模型性能的训练策略进行了全面的研究。这些技术,包括重新参数化、知识提取、数据扩充和学习进度调整,在推理过程中不涉及对模型架构的修改。特别是,我们经过训练的GhostNetV3实现了准确性和推理成本之间的最佳平衡,这在CPU和手机平台上都得到了验证。我们还将所提出的训练策略应用于其他紧凑型模型,如MobileNetV2和ShuffleNetV2,在这些模型中观察到精度的显著提高。我们希望我们的研究能够为未来该领域的研究提供宝贵的见解和经验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羞儿

写作是兴趣,打赏看心情

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值