YOLOv3 论文学习

最新推荐文章于 2023-02-21 17:20:34 发布

calvinpaean

最新推荐文章于 2023-02-21 17:20:34 发布

阅读量389

点赞数

分类专栏：深度学习目标检测图像识别

本文链接：https://blog.csdn.net/calvinpaean/article/details/84789557

版权

深度学习同时被 3 个专栏收录

137 篇文章 12 订阅

订阅专栏

目标检测

85 篇文章 4 订阅

订阅专栏

图像识别

81 篇文章 3 订阅

订阅专栏

YOLOv3: An Incremental Improvement

论文地址: https://arxiv.org/abs/1804.02767
代码地址：https://pjreddie.com/yolo/

Abstract

作者针对YOLO又做出了一些改进。模型变大了些，但是更加的准确了，速度同样很快。在 $320\times 320$ 的输入图像上，YOLOv3只耗时22ms，mAP是 $28.2\%$ ，这和SSD精度差不多，但是速度要快了3倍。YOLOv3在Titan X上的平均精度是57.9，耗时51ms；RetinaNet的平均精度是57.5，但是耗时198ms，YOLOv3要快3.8倍。

1. Introduction

作者Redmon也承认这篇论文其实更像一个tech report.

2. The Deal

速度快！

2.1 Bounding Box Prediction

延续YOLO9000，我们的系统通过dimension clusters预测边界框。网络对每个边界框预测4个坐标， $t_x, t_y, t_w, t_h$ 。 $c_x, c_y)$ 是网格距离图片左上角的距离，边界框的宽度和高度是 $p_w, p_h$ ，然后预测边框如下：
$b_x = \sigma(t_x) + c_x$
$b_y = \sigma(t_y) + c_y$
$b_w = p_w e^{t_w}$
$b_h = p_h e^{t_h}$

在训练中，使用squared error loss的和。如果 $\hat t_*$ 是某个坐标的ground truth，梯度就是ground truth值减去预测值： $\hat t_* - t_*$ 。把上面等式反过来求即可得ground truth 值。

YOLOv3在每个边界框上使用logistic regression来预测objectness score。如果某边界框与ground truth object的重合度高于其它所有的边界框，那么objectness score是1。如果某边界框与ground truth object重合度高于一个阈值，但是它不是最高的那个，ignore it。文中的阈值为0.5。作者给每个ground truth object只assign一个边界框。若某边界框没有被assign给任何一个ground truth object，它不会给坐标或类别带来任何损失，只对Objectness有。

2.2 Class Prediction

每个方框使用multi-label分类来预测边框内所含物体的类别。作者仅使用了独立的logistic分类器。训练中，作者使用binary cross-entropy loss来进行类别预测。

这对complex domains如Open Image Dataset有帮助。在这个数据集里，有许多重复的标签（如女人和人）。Softmax有一个假设，就是每个box只有一个类。Multi-label方法能更好地model the data.

2.3 Predictions Across Scales

YOLOv3在3个不同的scales上预测边框。作者使用了与feature pyramid networks类似的方法来从不同的scales上提取特征。在base特征提取器上作者增加了若干个卷积层。最后一个卷积层预测一个3维的张量，encoding边框信息，objectness，和类别预测。在COCO的实验中，作者在每个scale上预测3个边框，张量的大小就是 $N\times N\times [3 * (4+1+80)]$ ，有4个边框offsets，1个objectness预测，80个类别预测。

下一步，we take the feature map from 2 layers previous and unsample it by $2\times$ 。我们也从网络的前面部分获取一个特征图，把它和unsampled特征连接起来。这样，我们能从unsampled特征中获得更丰富的语义信息，也能从前面的特征图中获取细纹理的特征。然后增加一些卷积层来处理这个combined特征图，最终，我们预测一个类似的张量，尽管twice the size。

然后，我们将上面的网络设计再执行一次，预测第三个scale的边框。在第3个scale上的预测能很好地利用前面的计算以及前面网络得到的细纹理特征。

作者仍然使用k-means clustering来决定边框个数。作者任意选择了9个clusters和3个scales，然后将clusters在3个scales平分。在COCO数据集上，9个clusters是： $(10 \times 13); (16 \times 30); (33 \times 23); (30 \times 61); (62 \times 45); (59 \times 119); (116 \times 90); (156 \times 198); (373 \times 326)$ .

2.4 Feature Extractor

作者使用了一个新的网络来提取特征。这个网络是YOLOv2，Darknet-19，以及残差网络的hybrid版本。它使用连续的 $3\times 3$ 和 $1\times 1$ 的卷积层，加上了shortcut连接。它有53个卷积层，所以称作Darknet-53。

这个网络比Darknet-19要强大许多，比ResNet-101和ResNet-152要高效。

每个网络都用相同的设置来训练，在 $256\times 256$ 的输入图像上测试。在Titan X上，对输入大小是 $256\times 256$ 图像计算训练时间。Darknet-53与主流分类器对比，它的浮点计算更少，速度更快。Darknet-53比Resnet-101表现要好，速度也要快1.5倍。Darknet-53与Resnet-152表现差不多，但是要快2倍。

Darknet-53的每秒浮点运算是最高的。这说明，它的网络结构能更好地利用GPU，故而更高效和快速。也许是因为ResNet的层数太多，没那么高效。

2.5 Training

没有使用hard example mining技巧。
在full images上训练。
使用了multi-scale训练，数据增强，batch normalization,等等。
使用Darknet神经网络框架来训练和测试。

3. How We Do

在COCO上YOLOv3的平均精度与SSD差不都，但是速度要快了3倍。但是它和RetinaNet相比，仍然差了一点。

但是，在 $I O U = 0.5$ （或者 $AP_{50}$ ）的detection metric下，YOLOv3 is very strong. 它几乎和RetinaNet齐平，比SSD要高许多。着说明，YOLOv3是个强大的检测器，excels at producing decent boxes for objects。但是当IOU阈值变大时，YOLOv3的表现就不行了。

YOLO对小物体比较吃力。但是自从用了multi-scale predictions, YOLOv3的 $AP_S$ 表现很好，但是对大中型的物体就相对低了一些。这有待于未来的探索。

作者将 $AP_{50}$ metric时准确率和速度的比较plot了出来，可以发现YOLOv3 比其它的检测系统优势很明显，更快而且更好。

4. Things we tried but didn’t work

Pls read paper for more details!

calvinpaean

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
YOLOv3 论文学习

YOLOv3: An Incremental ImprovementAbstract1. Introduction2. The Deal2.1 Bounding Box Prediction2.2 Class Prediction2.3 Predictions Across Scales2.4 Feature Extractor2.5 Training3. How We Do4. Things w...
复制链接

扫一扫