YOLO v4学习笔记

最新推荐文章于 2024-08-06 16:18:03 发布

OngoingDC

最新推荐文章于 2024-08-06 16:18:03 发布

阅读量684

点赞数 1

分类专栏：目标检测文章标签：神经网络

原文链接：https://arxiv.org/pdf/2004.10934.pdf

版权

目标检测专栏收录该内容

13 篇文章 0 订阅

订阅专栏

文章目录

1、概述
2、Bag of freebies
3、Bag of specials
4、方法
5、实验部分
6、结果
7、其他

1、概述

论文链接点我

有一些可以提高卷积神经网络准确率的特征仅适用于某一类模型、某些问题或者小规模的数据集；然而某些特征（比如批归一化和残差连接）适用于大多数模型、任务或是数据集。我们假设这些通用的特征包括：

加权残差连接（ $W e i g h t e d - R e s i d u a l - C o n n e c t i o n s$ ）( $W R C$ )
跨阶段部分连接( $C r o s s - S t a g e - P a r t i a l - c o n n e c t i o n s$ )（ $C S P$ ）
交叉小批量标准化( $C r o s s m i n i - B a t c h N o r m a l i z a t i o n$ )（ $C m B N$ ）
自对抗训练( $S e l f - a d v e r s a r i a l - t r a i n i n g$ )（ $S A T$ ）
Mish激活( $M i s h - a c t i v a t i o n$ )

使用以下新功能：

$W R C$
$C S P$
$C m B N$
$S A T$
$M i s h$ $a c t i v a t i o n$
马赛克数据增强
$D r o p B l o c k$ 正则化
$C l o U$ 损失

并结合其中一些特性来实现最新结果：在 $T e s l a$ $V 10$ 上， $M S$ $C O C O$ 数据集以65FPS的实时速度获得43.5%AP（65.7% $AP_{50}$ ）。

YOLOv4的结果图见上。
这篇论文的贡献如下：

这个目标检测模型高效且强大。每个人都可以使用1080Ti或者2080Ti GPU来训练超快且准确的目标检测器。
在训练过程中，我们验证了最新的目标检测方法免费袋（ $B a g - o f - F r e e b i e s$ ）和特殊袋（ $B a g - o f - S p e c i a l$ ）的影响。
对现有的训练方法进行了改进，使其更加高效，更适合单个GPU的训练，包括 $C B N$ ， $P A N$ ， $S A M$ 。

现代的检测器通常包括两部分：

在 $I m a g e N e t$ 上进行预训练的主干（ $b a c k b o n e$ ）
用于预测对象类别和包围盒（ $b o u n d i n g$ $b o x e s$ ）的头部（ $h e a d$ ）

对于头部部分，可以分为两类：

one-stage object detector
two-stage object detector

近年来发展起来的目标检测器通常在主干和头部之间插入一些层，这些层通常用于采集不同阶段的特征图。所以我们可以称这些层为颈部（ $n e c k$ ）

一个普通的物体检测器由以下几部分组成：

输入（ $I n p u t$ ）：图像，补丁（ $P a t c h e s$ )，图像金字塔（ $I m a g e$ $P y r a m i d$ ）
主干（ $B a c k b o n e s$ )： $V G G 16$ ， $R e s N e t - 50$ ， $S p i n e N e t$ ， $E f f i c i e n t N e t - B 0 / B 7$ ， $C S P R e s N e X t 50$ ， $C S P D a r k n e t 53$
颈部（ $n e c k$ ）
- 其他块： $S P P$ ， $A S P P$ ， $R F B$ ， $S A M$
- 路径聚合块（ $P a t h - a g g r e g a t i o n$ $b l o c k s$ ）： $F P N$ ， $P A N$ ， $N A S - F P N$ ， $F u l l y - c o n n e c t e d$ $F P N$ ， $B i F P N$ ， $A S F F$ ， $S F A M$
头部：
- 密集检测（ $D e n s e$ $P r e d i c t i o n$ ）（ $o n e - s t a g e$ ）：
  - $R P N$ ， $S S D$ ， $Y O L O$ ， $R e t i n a N e t (a n c h o r$ $b a s e d)$
  - $C o r n e r N e t$ ， $C e n t e r N e t$ ， $M a t r i x N e t$ ， $F C O S (a n c h o r$ $f r e e)$
- 稀疏检测（ $S p a r s e$ $P r e d i c t i o n$ ）（ $t w o - s t a g e$ ）：
  - $F a s t e r$ $R - C N N$ ， $R - F C N$ ， $M a s k$ $R - C N N (a n c h o r$ $b a s e d)$
  - $R e p P o i n t s (a n c h o r$ $f r e e)$

在这里插入图片描述

2、Bag of freebies

这个短语可以翻译成免费袋。它是指在不增加推理成本的情况下，能使目标检测器获得更高的精度。我们称这些只改变训练策略或者只提高训练成本的方法为“免费袋”。

目标检测通常采用的“免费袋”是数据增强，数据增强的目的是增加输入图像的可变性，使所设计的目标检测模型对来自不同环境的环境具有较强的鲁棒性。

还有一些“免费袋”用于解决语义分布偏差，有时会出现不同类别之间存在数据不平衡的问题，这类问题通常通过两阶段目标检测器中的硬反例挖掘（negative example mining）或者在线硬例挖掘来解决。这类样例挖掘方法不适用于单阶段目标检测器，因为他们属于密集预测体系结构。针对此问题，焦点损失被提出用于解决不同种类存在数据不平衡问题。另外一个重要的问题是独热表示（one-hot)很难表达不同类别之间关联度的关系，独热表示经常用于执行标注，解决这类问题的方法是利用标签平滑方法将硬标签转换为软标签进行训练，使模型更加健壮。另外为了获得更好的软标签，标签精化网络被提出。

最后一些“免费袋”是包围盒（BBox）回归的目标函数。具体方法列举详见论文。

3、Bag of specials

仅增加少量推理成本，就能显著提高目标检测准确率的方法，如在网络中插入模块和后处理方法，这样的方法称之为“特殊袋”。

通常在网络中插入模块是为了增强模型中某些属性，比如扩大感受野，引入注意力机制，增强特征整合能力等等。后处理是筛选模型预测结果的一种方法。

用于增强感受野的常用模块：

SPP
ASPP
RFB

目标检测中常用的注意模块分为两种：

通道注意力
- 代表：Squeeze-and-Excitation (SE)
- SE模块可以将ResNet50在ImageNet图像分类任务中的能力提高1%的top-1精度，仅增加2%的计算成本，但是在GPU上通常会增加10%左右的推理时间，所以SE模块更适合在移动设备上使用。
逐点注意力
- 代表：Spatial Attention Module (SAM)
- SAM额外花费0.1%的计算成本，在ImageNet图像分类任务上可以提高 $R e s N e t 50 - S E$ 0.5%的top-1精度。然而它完全不影响GPU上的推理速度。

特征整合现在有很多集成了特征金字塔的轻量级模块：

SFAM
ASFF
BiFPN

目标检测中常用的后处理方法是NMS。

4、方法

我们提出了实时神经网络的两种选择：

对于GPU，我们在卷积神经网络中使用少量的组（1-8）：
- $C S P R e s N e X t 50$
- $C S P D a r k n e t 53$
对于VPU，我们使用分组卷积，但是我们应该避免使用SE，如：
- $E f f i c i e n t N e t - l i t e$
- $M i x N e t$
- $G h o s t N e t$
- $M o b i l e N e t$

4.1、架构选择

我们的目标是找到输入网络分辨率、卷积层数、参数（ $filter\_size^2*filters*channel/groups$ ）和层输出（filters）之间的最佳平衡。
另外一个目标是为不同的检测器级别，例如（FPN,PAN,ASFF,BiFPN）选择可以增加感受野的 $additional\ blocks$ 和来自不同骨干的最佳方法。

与分类器相比，检测器需要以下各项：

更高的输入网络大小（分辨率）——用于检测多个小对象
更多层——有更高的感受野去包围增大的输入网络
更多参数——使模型具有更大的容量，可以在单个图像中检测多个不同大小的对象

在这里插入图片描述
上图是 $C S P R e s N e X t 50$ , $C S P D a r k n e t 53$ , 和 $E f ﬁ c i e n t N e t B 3$ 三者的比较。 $C S P R e s N e x t 50$ 仅仅包含 16个3×3的卷积层, 一个425×425感受野和20.6 M的参数。而 $C S P D a r k n e t 53$ 拥有29个3 × 3的卷积层, 一个 725 × 725感受野和27.6 M参数。以上让我们选择了 $C S P D a r k n e t 53$ 神经网络作为检测器的骨干的最佳模型。

不同大小的感受野的影响如下：

等于物体的大小——允许查看整个对象
等于网络大小——允许查看对象周围的上下文
超过网络大小——增加图像点和最终激活之间的连接数

影响这部分翻译的不知道准不准确，看英文就知道意思了：

Up to the object size - allows viewing the entire object
Uptonetworksize-allowsviewingthecontextaround the object
Exceeding the network size - increases the number of connections between the image point and the ﬁnal activation

我们在CSPDarknet53添加SPP模块，因为它能显著的提高感受野的大小，分离出最重要的上下文特征。并且几乎不会降低网络运行速度。

舍弃YOLO v3中的FPN网络，YOLO v4中我们使用PANet作为不同检测器级别的不同骨干的参数聚合方法。

重点来了：
最终，我们选择了CSPDarknet53骨干网，SPP附加模块，PANet路径聚合颈部和YOLO v3中的头部作为YOLO v4的体系架构。

4.2、BoF和BoS的选择

为了改进目标检测训练，CNN通常使用如下方法：

激活函数
- ReLU
- leaky-ReLU
- parametric-ReLU
- ReLU6
- SELU
- Swish
- Mish
包围盒回归损失
- MSE
- IoU
- GIoU
- CIoU
- DIoU
数据增强
- CutOut
- MixUp
- CutMix
正则化方法
- DropOut
- DropPath
- Spatial DropOut
- DropBlock
通过均值和方差对网络激活进行归一化
- Batch Normalization (BN)
- Cross-GPU Batch Normalization (CGBN or SyncBN)
- Filter Response Normalization (FRN)
- Cross-Iteration Batch Normalization (CBN)
跳跃链接
- Residual connections
- Weighted residual connections
- Multi-input weighted residual connections
- Cross stage partial connections (CSP)

对于激活函数，由于PReLU和SELU训练难度大，而ReLU6是专门为量化网络设计的，所以都舍去。
对于正则化方法，我们选择DropBlock作为我们正则化方法。
对于归一化方法，我们只关注一个GPU的训练策略，所以不考虑syncBN

4.3、其他改进

为了使所设计的检测器更适合在单GPU上进行训练，我们做出了额外的改进，如下：

介绍了一种新的数据增强方法：Mosaic和自对抗训练（SAT）
在应用遗传算法时，我们选择最佳的超参数
我们修改了SAM、PAN和交叉小批量归一化（CMBN）方法

在这里插入图片描述

Mosaic是一种混合四张训练图像为一张的新型数据增强方法。而CutMix仅混合了两张。这样允许其检测正常上下文之外的对象。此外，批量归一化可以从每层上的四个不同图像计算激活统计数据，极大的减少了对大量小批量的需求。

自对抗训练（SAT）也代表了一种新的数据增强的方法，他在前后两个阶段操作。在第一阶段，神经网络改变原始图像而不是网络权值，通过这种方式，神经网络对其自身执行对抗性攻击，改变原始图像以造成图像上没有所需要对象的假象。在第二阶段，训练神经网络，以正常方式在修改后的图像上检测目标。

在这里插入图片描述

CmBN是CBN的修改版本，如上图所示，定义为Cross mini-Batch Normalization (CmBN)。它仅在单批次中的小批次之间收集统计数据。

在这里插入图片描述
我们修改SAM从空间注意力模型到点注意力模型，并将PAN的跳跃连接替换成串联，如上图所示。

4.4、YOLO v4

YOLO v4包括以下部分：

Backbone: CSPDarknet53
Neck: SPP, PAN
Head: YOLOv3

YOLO v4用到的：

用于骨干的“免费袋”
- CutMix and Mosaic 数据增强
- DropBlock 正则化
- Class label smoothing（类别标签平滑）
用于骨干的“特殊袋”
- Mish激活
- Cross-stage partial connections (CSP)
- 多输入残差连接 (MiWRC)
用于检测器的“免费袋”
- CIoU-loss
- CmBN
- DropBlock regularization
- Mosaic data augmentation
- Self-Adversarial Training
- Eliminate grid sensitivity
- Using multiple anchors for a single ground truth
- Cosineannealingscheduler
- Optimalhyperparameters
- Random training shapes
用于检测器的“特殊袋”
- Mish activation
- SPP-block
- SAM-block
- PAN path-aggregation block
- DIoU-NMS

5、实验部分

在ImageNet (ILSVRC2012val)数据集上测试了各种改进技术对分类器精度的影响。在 MS COCO (test-dev 2017) 数据集上测试了各种改进技术对检测器精度的影响。

5.1、实验设置

在ImageNet图像分类实验中，默认的超参数为：

训练步数（training steps）8,000,000步;
批量（batch size）和小批量（mini-batch size）分别是128和32;
采用多项式衰减学习率调度策略（polynomial decay learning rate scheduling strategy）初始学习率为0.1;
预热步骤（warm-up steps）1000;
动量（momentum）和权重（weight）衰减分别设置为0.9和0.005。

我们所有的BoS实验都使用与上面默认设置相同的超参数，在BoF实验中，我们再增加50%的训练步数。

在MS COCO对象检测实验中，默认的超参数如下：

训练步数（training steps）是500,500;
采用步长衰减学习率调度策略（step decay learning rate scheduling strategy），初始学习率为0.01，在40万步和45万步分别乘以0.1倍；
动量（momentum）和权重（weight）衰减分别设置为0.9和0.0005。

所有架构都使用单个GPU来执行批大小为64的多尺度训练，而小批量大小为8或4，具体取决于架构和GPU内存限制。

除了采用遗传算法进行超参数搜索实验外，其他的实验都采用默认设置。遗传算法使用YOLOv3-SPP算法进行带GIoU损失的训练，并搜索300 epochs 的min-val 5K集（search 300 epochs for min-val 5k sets）。

遗传算法实验采用：

0.00261学习率
0.949动量
0.213IoU阈值
0.07损失归一化

5.2、不同特征对分类训练的影响

在这里插入图片描述
从上图可知，通过引入CutMix和Mosaic数据增强类标签平滑和Mish激活函数等功能，提高了分类器的精度。因此，我们用于分类器训练的骨干“免费袋”包括以下内容：

CutMix and Mosaic data augmentation
Class label smoothing

此外，我们使用Mish激活作为补充选项，如下两表所示：
在这里插入图片描述

5.3、不同特征对检测器训练的影响

在这里插入图片描述

如上图所示，我们通过研究在不影响FPS的情况下提高探测器精度的不同特征，显著扩展了BoF列表。

S：消除栅格敏感度，公式： $b_x = \sigma(t_x)+c_x$ ， $b_y=\sigma(t_y)+c_y$ 。其中 $c_x$ 和 $c_y$ 始终是整数，在YOLOv3中被用于计算目标的坐标，因此要使 $b_x$ 值接近 $c_x$ 或 $c_{x+1}$ 的值，需要提高 $t_x$ 的绝对值。我们通过将Sigmoid乘以大1.0的因子来解决这个问题，从而消除了目标在其上不可检测的网格的影响。
M：Mosaic数据增强——在训练过程中使用4幅图像拼接，而不是单幅图像。
GA：遗传算法——用遗传算法选择前10%时间段网络训练中最优的超参数
LS：类别标签平滑——对sigmoid使用类标签平滑
CBN：CmBN——使用交叉小批次标准化收集整个批次内的统计信息，而不是收集单个小批次内的统计信息。
CA：余弦退火调度器（Cosine annealing scheduler）——改变正弦训练过程中的学习率
DM：动态小批量（Dynamic mini-batch size ）——利用随机训练形状在小分辨率训练过程中自动增加小批量大小
OA：优化的锚点——使用优化的锚点进行512*512网络分辨率的训练
GIoU,CIoU,DIoU,MSE：使用不同的损失算法进行边界盒回归。

在这里插入图片描述

进一步实验表明，在我们实验中，当使用SPP，PAN和SAM时，检测器的性能最佳，如上图所示。

5.4、不同骨干和预训练权重对检测器训练的影响

在这里插入图片描述
进一步研究了不同骨干模型对检测器精度的影响，如上图，我们发现分类精度最好的模型并不总是检测器精度最好的模型。

首先，针对不同特征训练的CSPResNeXt50模型比CSPDarknet53模型具有更高的分类精度，但是CSPDarknet53模型在目标检测方面表现出更高的准确率。

其次，使用BoF和Mish对CSPResNeXt50模型的分类器进行训练可以提高其分类精度，但是进一步将这些预先训练好的权重用于检测器训练会降低检测器的精度。然而，使用了BoF和Mish进行 CSPDarknet53分类器的训练提高了分类器和使用该分类器预训练权重的检测器准确率。所以最终结果是CSPDarknet53比CSPResNeXt50更适合探测器。

5.5、不同小批量对检测器训练的影响

在这里插入图片描述
上图展示了用不同的小批量训练的模型获得的结果。
从上图可知，在添加BoF和BoS训练策略后，小批量大小对检测器的性能几乎没有影响。这一结果表明，在引入BoF和BoS之后，不需要再使用昂贵的GPU（还是要使用的，可以使用便宜的）进行训练了。

6、结果

在这里插入图片描述
上图显示了与其他最先进的物体检测器获得的结果的比较。YOLOv4位于帕累托最优曲线（Pareto optimality curve）上，在速度和精度方面都优于最快和最精确的检测器。

Since different methods use GPUs of different architectures for inference time veriﬁcation, we operate YOLOv4 oncommonlyadoptedGPUsofMaxwell,Pascal,andVolta architectures, and compare them with other state-of-the-art methods. Table 8 lists the frame rate comparison results of usingMaxwellGPU,anditcanbeGTXTitanX(Maxwell) or Tesla M40 GPU. Table 9 lists the frame rate comparison results of using Pascal GPU, and it can be Titan X (Pascal), Titan Xp, GTX 1080 Ti, or Tesla P100 GPU. As for Table 10, it lists the frame rate comparison results of using Volta GPU, and it can be Titan Volta or Tesla V100 GPU.

在这里插入图片描述