【yolov7论文概要】

yolov7主要贡献

1、引言 Introduction

  • 模型重新参数化model re-parameterization和动态标签分配dynamic label assignment在网络训练和目标检测中很重要,提出发现的新问题和设计了有效的处理方法。对于模型重新参数化,运用梯度传播路径概念应用在不同网络的层分析了重新参数化策略。并且提出了有计划的重新参数化模型。使用动态标签分配技术时多重输出层模型的训练将产生新的问题,问题是对于不同分支的输出如何分配动态标签。对于这个问题,提出了新的标签分配方法叫做coarse-to-fine lead guided标签分配。

  • 设计了可训练bag-of-freebies方法,在不增加推理成本的情况下极大的提升了检测精度。

  • 为了提升目标检测方法,发现另种新问题。第一,重新参数化的模块如何取代原始模块,第二,动态标签分配策略如何处理对不同输出层的分配

  • 针对两个问题,提出解决办法。对实时目标检测提出扩展和复合缩放方法 ,该方法能有效的利用参数和计算。该方法能有效的减少40%的参数和50%的计算。拥有快速的推理速度和较高的检测准确率。

2、 相关工作

2.1 实时目标检测器 Real-time object detectors
  • 成为最先进的实时物体探测器state-of-the-art real-time object detector需要下列参数:1.更快速和更强大的网络架构,2.更有效的特征集成方法。3.更准确的检测方法,4.更稳定的损失函数。5.有效的标签分配方法。6.有效的训练方式。
2.2 重新参数化模型 Model re-parameterization
  • 模型在参数化技术在推理阶段将多个计算模块合并为一个模块。这技术被认为是一种集成技术。也能分成模块级集成和模型级集成两种方式。
  • 模型参数化方法在训练过程中将一个模块分割为多个相同或不同的模块分支,并在推理过程中将多个分支模块集成到一个完全等价的模块中。并不是所有的模型能有效的应用在不同的架构中,对于这点,开发了新的重新参数化模块,为各种架构设计了相关的应用程序策略。
2.3 模型缩放 Model scaling
  • 模型缩放方法通常使用不同的缩放因子,如分辨率(输入图像大小)、深度(层数)、宽度(通道数)和阶段(特征金字塔数量),从而在网络参数的数量、计算、推理速度和精度方面实现很好的权衡。
  • 网络架构搜索(NAS)是目前常用的模型缩放方法之一,NAS可以自动搜索合适的缩放因子,缺点是搜索模型比例因子需要消耗大量的计算量。
  • 独立优化缩放因子是因为NAS体系结构处理比例因子相关性不是很大。

3 架构 Architecture

3.1 扩展高效的层聚合网络 Extended efficient layer aggregation networks

在这里插入图片描述
CSPVoVNet是VoVNet的变体。梯度路径以使不同层的权重能够学习更多样化的特征。ELAN网络通过控制最短最长梯度路径,更深的网络可以有效地学习和收敛。基于ELAN提出了 Extended-ELAN (E-ELAN)。

  • 所提出的E-ELAN采用扩展、shuffle、合并基数,可以在不破坏原始梯度路径的情况下不断提高网络的学习能力。在体系结构方面,E-ELAN只改变了计算块中的体系结构,而过渡层的体系结构则完全不变。
  • 我们的策略是利用群卷积来扩展计算块的通道和基数。我们将应用相同的组参数和信道倍增器用于计算层的所有计算块。然后,将每个计算块计算出的特征图根据设置的组参数g整分为g组,然后将它们连接在一起。此时,每一组特征图中的通道数将与原始体系结构中的通道数相同。最后,我们添加了g组特征映射来执行合并基数。

3.2 基于连接的模型的模型缩放 Model scaling for concatenation-based models

  • 模型缩放的主要目的是调整模型的一些属性,生成不同尺度的模型,以满足不同推理速度的需求。
  • 以放大深度为例,这样的动作会导致过渡层的输入通道和输出通道之间的比率变化,从而导致模型的硬件使用量的减少。
  • 当扩大或缩小执行深度,基于连接的翻译层的计算块将减少或增加,如图(a)和(b).
  • 当我们缩放一个计算块的深度因子时,我们还必须计算该块的输出通道的变化。然后,我们将对过渡层以相同的变化量进行宽度因子缩放,如图c,我们提出的复合尺度方法可以保持模型在初始设计时的特性,并保持最优结构。在这里插入图片描述

4.Trainable bag-of-freebies

4.1 Planned re-parameterized convolution
  • 使用梯度流传播路径来分析重新参数化的卷积应该如何与不同的网络相结合。
  • RepConv中的一致连接破坏了ResNet中的残差和DenseNet中的连接,对于上述原因,我们使用没有一直连接的RepConv(RepConvN)去设计有计划重新参数卷积(Planned re-parameterized convolution)结构。
  • 当具有残差或连接的卷积层被重新参数化的卷积层所取代时,就不存在一致连接(identity connection).
    在这里插入图片描述
    In the proposed planned re-parameterized model, we found that a layer with residual or concatenation connections, its RepConv should not have identity connection. Under these circumstances, it can be replaced by RepConvN that contains no identity connections.
4.2 Coarse for auxiliary and fine for lead loss
  • 深度监督主要的概念是在网络中间层添加额外的辅助头,浅层网络权值以辅助损失作为指导。在ResNet和DenseNet 中深度监督会提升模型的性能。

  • 我们将负责最终输出的头称为引导头,将用于辅助训练的头称为辅助头。

  • How to assign soft label to auxiliary head and lead head ?

  • 新的标签分配方式,通过lead head预测来引导辅助头和lead head。使用lead head预测作为指导,生成从粗到细coarse-to-fine的层次标签用于辅助头和lead head学习。如下图
    在这里插入图片描述

  • lead head引导标签分配在lead head and the ground truth预测结果中是主要的计算基础。通过优化过程生成软标签。这组软标签将作为辅助头和lead head的目标训练模型。这样做的原因是lead head具有相对较强的学习能力,由此生成的软标签应该更能代表源数据与目标之间的分布和相关性。通过让较浅的辅助头直接学习lead head已经学习到的信息,lead head将更能专注于学习尚未学习到的残余信息。

  • Coarse-to-fine lead head guided label assigner利用lead head预测结果和groud truth来生成软标签。软标签设置为粗标签和细标签 coarse label and fine label。细标签与lead head 引导的标签分配生成的标签相同。通过放松正样本分配过程的约束,允许更多的网格被视为正目标来生成粗标签。原因是一个辅助头的学习能力不是那么强大的lead head,为了避免失去需要学习的信息,我们将专注于优化召回辅助头的目标检测任务。

  • 如果粗标签的附加权重接近于细标签在最终的预测中会产生坏的先验框。因此,为了使这些超粗正网格的影响较小,我们在解码器中进行了限制,从而使这些超粗正网格不能完美地产生软标签。

4.3 Other trainable bag-of-freebies
  • 训练trick:1.在conv-bn-activation拓扑结构中批量标准化。其目的是将推理阶段批量归一化的均值和方差整合到卷积层的偏差和权重中。2. YOLOR中的隐式知识结合卷积特征映射和乘法方式:YOLOR中的隐式知识可以通过推理阶段的预计算简化为向量。这个向量可以与之前或后续卷积层的偏差和权重相结合。3.EMA运用在mean teacher的一种技术。我们使用EMA模型作为最终的推理模型。

5. Experiments

5.1. Experimental setup
  • 使用MicrosoftCOCO 数据集。不使用预训练模型,使用train 2017作为训练集,使用val 2017作为验证和选择超参数。利用test 2017数据集作为目标检测。
  • 对于YOLOv7,我们在颈部做了堆栈缩放,并使用所提出的复合缩放方法对整个模型的深度和宽度进行缩放,并使用此方法得到YOLOv7-X。 YOLOv7-E6E是YOLOv7-E6+ELAN.YOLOv7-tiny使用Leaky ReLU作为激活函数。
5.2 Baselines

结果如下:
在这里插入图片描述

5.3 Comparison with state-of-the-arts 和最好的模型比较

在这里插入图片描述

5.4 消融试验

5.4.1 Proposed compound scaling method

表3显示了在使用不同的模型扩展策略进行放大时获得的结果。其中,我们提出的复合尺度方法是将计算块的深度放大1.5倍,将过渡块的宽度放大1.25倍。
在这里插入图片描述

5.4.2 提出了计划的重新参数化模型

为了验证我们所提出的规划再参数化模型的通用性,我们将其分别应用于基于连接的模型和基于残差的模型上进行验证。我们选择的基于连接的模型和基于残差的模型分别为3堆叠的ELAN和CSPDarknet。

  • 在基于连接的模型实验中,我们用RepConv将3堆叠ELAN中不同位置的3×3卷积层替换,详细配置如图6所示。在这里插入图片描述
    因为原来的dark block没有3×3卷积快,设计反向dark block。
    反向CSPDarknet。我们反转了暗块中1×1和3×3卷积层的位置,以适应我们计划的再参数化模型设计策略。
    在这里插入图片描述
5.4.3 Proposed assistant loss for auxiliary head

在辅助头实验的辅助损失中,我们比较了lead head和辅助头方法的一般独立标签分配,我们也比较了所提出的两种引导标签分配方法。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6 更多模型比较

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值