【YOLOv2原文+翻译】YOLO9000: Better, Faster, Stronger

最新推荐文章于 2022-08-21 15:45:38 发布

MAKE ELEPHANT FLY

最新推荐文章于 2022-08-21 15:45:38 发布

阅读量3.6k

点赞数 7

分类专栏： YOLO ReID 文章标签：计算机视觉神经网络深度学习算法 python

本文链接：https://blog.csdn.net/qq_41915226/article/details/106246799

版权

本文详细介绍了YOLOv2目标检测网络的改进，包括批量归一化、高分辨率分类器、锚框卷积、维度群集、直接定位预测、细粒度特征、多尺度训练等技术，使得YOLOv2在速度和准确度之间取得良好平衡。此外，还提出了联合训练目标检测和分类的方法，以YOLO9000实现对9000多个类别的实时检测，为检测系统扩展了范围。

摘要由CSDN通过智能技术生成

最近新出了YOLOV4，我系统的从V1开始整理出稿，传送门：
【YOLOv1原文+翻译】You Only Look Once Unified, Real-Time Object Detection
【YOLOv2原文+翻译】YOLO9000: Better, Faster, Stronger
【YOLOv3原文+翻译】YOLOv3：An Incremental Improvement
【YOLOv4原文+翻译】YOLOv4：Optimal Speed and Accuracy of Object Detection

首先上传原文：百度云盘
提取码：
i9b2
因为大多数博主所给的都是外链，对于没有梯子的同学来说打开非常痛苦，我直接上传PDF啦

正文开始

Abstract（摘要）

我们将介绍一个先进的，实时目标检测的网络YOLO9000，它可以检测超过9000个类别的物体。首先，我们针对YOLO检测网络提出了许多从以前的工作中得出的，新颖的改进。改进后的网络称为YOLOv2，在标准的检测任务中，比如PASCAL VOC和COCO，它也是一个先进的目标检测网络。使用新颖的多尺度训练方法，相同的YOLOv2模型可以在不同的图像大小下运行，并在速度和准确度之间提供简单的权衡。在VOC 2007数据集上，67FPS时，YOLOv2实现了76.8 mAP。在40 FPS时，YOLOv2获得78.6 mAP，优于最先进的方法，如使用ResNet和SSD的Faster R-CNN，同时运行速度明显更快。最后，我们提出了一个联合训练目标检测和分类任务的方法。使用这个方法，我们在COCO检测数据集和ImageNet分类数据集上同时训练YOLO9000网络。我们的联合训练使得YOLO9000可以预测没有标签的检测数据的对象类别。我们在ImageNet的检测任务中验证了网络的有效性。YOLO9000在ImageNet检测验证集上获得了19.7 mAP，尽管在200个类中只有44个类具有检测数据。在COCO不包含的156个类别中，YOLO9000获得了16.0 mAP。但YOLO可以检测到超过200个类别; 它预测了超过9000种不同对象类别的检测。并且它仍然可以实时运行。

1. Introduction（介绍）

通用目标检测应该是快速的、准确的并且能够识别各种各样的物体。由于神经网络的发展，检测网络已经变得越来越快速和准确。然而，大多数检测网络仍然受限于很少的物体范围内。

与用于分类和标记等其他任务的数据集相比，当前目标检测数据集是有限的。最常见的检测数据集包含数千到数十万个具有数十到数百个标签的图像。而分类数据集具有数百万个具有数十或数十万个类别的图像。

我们希望检测能扩展到物体分类的级别。然而，用于检测的标签图像比用于分类或标记的标签要昂贵得多（标签通常是用户免费提供的）。因此，我们不太可能在不久的将来看到与分类数据集相同规模的检测数据集。

yolo9000

图1:YOLO9000。YOLO9000可以实时检测多种对象类

我们提出了一种新方法来利用我们已有的大量的分类数据，并用它来扩展当前检测系统的范围。我们的方法使用物体分类的分层视图，允许我们将不同的数据集组合在一起。

我们还提出了一种联合训练算法，该算法允许我们在检测和分类数据上训练目标检测网络。我们的方法利用标记的检测图像来学习精确定位物体，同时使用分类图像来增加其词汇量和鲁棒性。

使用这种方法，我们训练YOLO9000，一个可以检测超过9000种不同物体类别的实时目标检测网络。首先，我们改进了基础YOLO检测网络，以得到YOLOv2，这是一种先进的实时检测网络。然后我们使用数据集组合方法和联合训练算法来训练来自ImageNet以及COCO检测数据的超过9000个类的模型。

我们所有的代码和预训练模型可以在网上找到：http://pjreddie.com/yolo9000/

2. Better（更好）

与先进的检测系统相比，YOLO存在各种缺点。与Fast R-CNN相比，YOLO的错误分析表明YOLO产生了大量的定位误差。此外，与基于region proposal的方法相比，YOLO具有相对较低的召回率。因此，我们主要关注改善召回率和定位，同时保持分类准确性。

计算机视觉通常趋向于更大，更深的网络。更好的性能通常取决于训练更大的网络或集合多个模型。但是，对于YOLOv2，我们需要更准确的检测，但速度仍然很快。我们没有扩展网络，而是简化网络，然后使特征表示更容易学习。我们将过去工作中的各种想法与我们自己的新思想结合起来，以提高YOLO的性能。结果摘要见表2。
在这里插入图片描述