深度学习目标检测之 YOLO v3

最新推荐文章于 2024-08-09 00:38:37 发布

奔跑的大西吉

最新推荐文章于 2024-08-09 00:38:37 发布

阅读量767

点赞数

分类专栏：深度学习文章标签：深度学习目标检测计算机视觉

原文链接：https://www.jianshu.com/p/d13ae1055302

版权

深度学习专栏收录该内容

37 篇文章 41 订阅

订阅专栏

论文名：《YOLOv3: An Incremental Improvement》
论文地址
- https://pjreddie.com/media/files/papers/YOLOv3.pdf
- https://arxiv.org/abs/1804.02767v1
论文代码
- https://github.com/yjh0410/yolov2-yolov3_PyTorch
- keras：https://github.com/qqwweee/keras-yolo3

YOLOv3没有太多的创新，主要是借鉴一些好的方案融合到YOLO里面。不过效果还是不错的，在保持速度优势的前提下，提升了预测精度，尤其是加强了对小物体的识别能力。

YOLO3主要的改进有：

利用多尺度特征进行对象检测（类FPN）
更好的基础分类网络（类ResNet）和分类器 darknet-53,见下图。
分类器-类别预测：YOLOv3不使用Softmax对每个框进行分类，主要考虑因素有两个：
1. Softmax使得每个框分配一个类别（score最大的一个），而对于Open Images这种数据集，目标可能有重叠的类别标签，因此Softmax不适用于多标签分类。
2. Softmax可被独立的多个logistic分类器替代，且准确率不会下降。分类损失采用binary cross-entropy loss.

新的网络结构Darknet-53

darknet-53借用了resnet的思想，在网络中加入了残差模块，这样有利于解决深层次网络的梯度问题，每个残差模块由两个卷积层和一个shortcut connections,

1,2,8,8,4代表有几个重复的残差模块，整个v3结构里面，没有池化层和全连接层，网络的下采样是通过设置卷积的stride为2来达到的，每当通过这个卷积层之后

图像的尺寸就会减小到一半。而每个卷积层的实现又是包含 卷积+BN+Leaky relu,每个残差模块之后又要加上一个zero padding,论文中所给的网络结构如下，由卷积模块和残差模块组成；

在这里插入图片描述

上图的Darknet-53网络采用 $256 * 256 * 3$ 作为输入，最左侧那一列的1、2、8等数字表示多少个重复的残差组件。每个残差组件有两个卷积层和一个快捷链路，示意图如下：

在这里插入图片描述
darknet-53仿ResNet, 与ResNet-101或ResNet-152准确率接近,但速度更快.对比如下:

与darknet-19对比可知，darknet-53主要做了如下改进：

没有采用最大池化层，转而采用步长为2的卷积层进行下采样。
为了防止过拟合，在每个卷积层之后加入了一个BN层和一个Leaky ReLU。
引入了残差网络的思想，目的是为了让网络可以提取到更深层的特征，同时避免出现梯度消失或爆炸。
将网络的中间层和后面某一层的上采样进行张量拼接，达到多尺度特征融合的目的。

模型可视化

具体的全部模型结构可以从这个网站的工具进行可视化分析：

https://lutzroeder.github.io/netron/

从Yolo的官网上下载yolov3的权重文件，然后通过官网上的指导转化为H5文件，然后可以再这个浏览器工具里直接看yolov3的每一层是如何分布的；类似下边截图是一部分网络（最后的拼接部分）；

在这里插入图片描述

利用多尺度特征进行对象检测

对于多尺度检测来说，采用多个尺度进行预测，具体形式是在网络预测的最后某些层进行上采样拼接的操作来达到；对于分辨率对预测的影响如下解释：

分辨率信息直接反映的就是构成object的像素的数量。一个object，像素数量越多，它对object的细节表现就越丰富越具体，也就是说分辨率信息越丰富。这也就是为什么大尺度feature map提供的是分辨率信息了。语义信息在目标检测中指的是让object区分于背景的信息，即语义信息是让你知道这个是object，其余是背景。在不同类别中语义信息并不需要很多细节信息，分辨率信息大，反而会降低语义信息，因此小尺度feature map在提供必要的分辨率信息下语义信息会提供的更好。(而对于小目标，小尺度feature map无法提供必要的分辨率信息，所以还需结合大尺度的feature map)
在这里插入图片描述

YOLO2曾采用passthrough结构来检测细粒度特征，在YOLO3更进一步采用了3个不同尺度的特征图来进行对象检测。网络的最终输出有3个尺度分别为1/32，1/16，1/8；

结合上图看，卷积网络在79层后，经过下方几个黄色的卷积层得到一种尺度的检测结果。相比输入图像，这里用于检测的特征图有32倍的下采样。比如输入是 $416 * 416$ 的话，这里的特征图就是 $13 * 13$ 了。由于下采样倍数高，这里特征图的感受野比较大，因此适合检测图像中尺寸比较大的对象。

为了实现细粒度的检测，第79层的特征图又开始作上采样（从79层往右开始上采样卷积），然后与第61层特征图融合（Concatenation），这样得到第91层较细粒度的特征图，同样经过几个卷积层后得到相对输入图像16倍下采样的特征图。它具有中等尺度的感受野，适合检测中等尺度的对象。

最后，第91层特征图再次上采样，并与第36层特征图融合（Concatenation），最后得到相对输入图像8倍下采样的特征图。它的感受野最小，适合检测小尺寸的对象。

concat：张量拼接。将darknet中间层和后面的某一层的上采样进行拼接。拼接的操作和残差层add的操作是不一样的，拼接会扩充张量的维度，而add只是直接相加不会导致张量维度的改变。

9种尺度的先验框

随着输出的特征图的数量和尺度的变化，先验框的尺寸也需要相应的调整。YOLO2已经开始采用K-means聚类得到先验框的尺寸，YOLO3延续了这种方法，为每种下采样尺度设定3种先验框，总共聚类出9种尺寸的先验框。在COCO数据集这9个先验框是：(10x13)，(16x30)，(33x23)，(30x61)，(62x45)，(59x119)，(116x90)，(156x198)，(373x326)。

分配上，在最小的 $13 * 13$ 特征图上（有最大的感受野）应用较大的先验框(116x90)，(156x198)，(373x326)，适合检测较大的对象。中等的 $26 * 26$ 特征图上（中等感受野）应用中等的先验框(30x61)，(62x45)，(59x119)，适合检测中等大小的对象。较大的 $52 * 52$ 特征图上（较小的感受野）应用较小的先验框(10x13)，(16x30)，(33x23)，适合检测较小的对象。

在这里插入图片描述

感受一下9种先验框的尺寸，下图中蓝色框为聚类得到的先验框。黄色框式ground truth，红框是对象中心点所在的网格。

在这里插入图片描述

对象分类softmax改成logistic

预测对象类别时不使用softmax，改成使用logistic的输出进行预测。这样能够支持多标签对象（比如一个人有Woman 和 Person两个标签）。

输入映射到输出

在这里插入图片描述

不考虑神经网络结构细节的话，总的来说，对于一个输入图像，YOLO3将其映射到3个尺度的输出张量，代表图像各个位置存在各种对象的概率。

我们看一下YOLO3共进行了多少个预测。对于一个416*416的输入图像，在每个尺度的特征图的每个网格设置3个先验框，总共有 13*13*3 + 26*26*3 + 52*52*3 = 10647 个预测。每一个预测是一个(4+1+80)=85维向量，这个85维向量包含边框坐标（4个数值），边框置信度（1个数值），对象类别的概率（对于COCO数据集，有80种对象）。

对比一下，YOLO2采用13*13*5 = 845个预测，YOLO3的尝试预测边框数量增加了10多倍，而且是在不同分辨率上进行，所以mAP以及对小物体的检测效果有一定的提升。

训练过程

YoloV3 的训练过程，特别是样本的选择和 V1 和 V2 已经完全不一样了。

在 V1 和 V2 中是看 gd 中心所落的负责区域来确定 gd 由哪个点来负责。由于 V3 中有多个最终的 feature map。使用这种策略可能会导致矛盾（即一个 gd 同时属于多个点负责）。所以需要新的方式确定样本由哪个点的区域负责。原则很简单：

所有预测的 pd 中和 gd 的 IOU 最大的那个就是正样本。

作者还创新的把预测 pd 分成三类：

正例：产生回归框 loss 和类别置信度 loss。

对任意的 gd，与所有的 pd 计算IOU，IOU 最大那个就是正例。一个pd，只能分配给一个gd。比如第一个 gd 已经匹配了一个正例的 pd，那么下一个 gd，需要在剩下的 pd 中寻找 IOU 最大的作为正例。
负例：只产生置信度 loss。

除正例以外（与 gd 计算后 IOU 最大的检测框，但是IOU小于阈值，仍为正例），与全部 gd 的 IOU 都小于阈值（论文中为 0.5），则为负例。
忽略：不产生任何 loss。

除正例以外，与任意一个 gd 的 IOU 大于阈值（论文中为 0.5），则为忽略。

在 YoloV3 中置信域标签直接设置为 1 和0。而不是 YoloV1 的 IOU 值。原因是假设 iou 是0.8，但学习到的可能只有 0.6 总是会低一些。不如直接将标签设为 1 （学习到的可能就是 0.8）。

测试过程

由于有三个特征图，所以需要对三个特征图分别进行预测。

三个特征图一共可以出预测 19 × 19 × 3 + 38 × 38 × 3 + 76 × 76 × 3 = 22743 个 pd 坐标以及对应的类别和置信度。

测试时，选取一个置信度阈值，过滤掉低阈值 box，经过 NMS（非极大值抑制），输出整个网络的预测结果。注意最后要还原到原始坐标。该改成测试模式的模块需要改成测试模式（比如 BatchNorm）

小结

YOLO3借鉴了残差网络结构，形成更深的网络层次，以及多尺度检测，提升了mAP及小物体检测效果。如果采用COCO mAP50做评估指标（不是太介意预测框的准确性的话），YOLO3的表现相当惊人，如下图所示，在精确度相当的情况下，YOLOv3的速度是其它模型的3、4倍。
在这里插入图片描述
对不同的单阶段和两阶段网络进行了测试。通过对比发现，YOLOv3达到了与当前先进检测器的同样的水平。检测精度最高的是单阶段网络RetinaNet，但是YOLOv3的推理速度比RetinaNet快得多。