卷积神经网络——YOLOV2(YOLO9000)论文翻译

helpburn

已于 2022-01-20 09:55:09 修改

阅读量957

点赞数

分类专栏：机器学习卷积神经网络人工智能文章标签：计算机视觉目标检测人工智能

于 2021-07-16 11:10:09 首次发布

本文链接：https://blog.csdn.net/itlilyer/article/details/118032498

版权

YOLO9000是一种先进的实时目标检测系统，能检测超过9000种物体。通过改进YOLO，YOLOv2在PASCAL VOC和COCO等标准检测任务上表现出色，同时提供了速度和精度的平衡。研究中提出了多尺度训练、高分辨率分类器和联合训练算法，使模型能同时处理多种输入大小和检测分类任务。YOLO9000利用WordNet构建的层次结构，实现跨数据集的联合训练，有效扩展了检测类别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文链接：https://arxiv.org/abs/1612.08242

YOLO9000: Better, Faster, Stronger

Abstract

我们介绍一个最先进的，实时的目标检测系统——YOLO9000，它可以检测超过9000种目标类型。首先我们提出了针对YOLO的各种改进方法，即有新的思路也借鉴了以往的工作。经过提升后的模型——YOLOv2，是在标准检测任务(像PASCAL VOC 和COCO)上表现最好的。通过使用一种新颖的多尺度的训练，相同的YOLOv2模型可以使用不同的输入大小，可以使速度和精度得到一个简单的平衡。在VOC 2007上，当速度为67 FPS时mAP为76.8。当速度为40 FPS时，mAP为78.6，超过了目前最好的检测模型(像使用Resnet的Faster R-CNN和SSD)同时运行的更快。最后我们提出了一种将检测和分类联合训练个方法。使用这种方式我们同时使用COCO的检测数据集和ImageNet的分类数据集对YOLO9000进行训练。我们融合的训练方式，可以是YOLO9000可以预测那些没有标记的检测数据的物体类别。我们使用ImageNet的检测任务来验证我们的方法。YOLO9000在ImageNet的检测验证集上得到的mAP为19.7，尽管200个类别中只有44类别有检测数据。COCO中没有包含的156个类别，YOLO9000得到的mAP为16.0。但是YOLO不仅仅只检测200个类别，它可以检测超过9000种物体。并且仍然是实时检测。

1. Introduction

通用目标检测应该快速、准确并且能够识别多种多样的目标。自从引入了神经网络，目标检测的框架越来越快速和准确。但是，大多数的检测方法目前仅限于能够检测一小部分类别的目标。

与其他任务相比，比如分类和标记，当前的目标检测数据集非常有限。最常见的检测数据集包含几千到几十万的图片，这些图片有几十到几百的标签[3] [10] [2]。分类任务的数据集有数以百万的图片，覆盖了几万到几十万的类别[20] [2]。

我们希望检测数据集能够扩展到对象分类的数量级。然而，为检测而标记图像的成本远远高于为分类或标记标记图像的成本（标记通常由用户免费提供）。因此，我们不太可能在不久的将来看到与分类数据集规模相同的检测数据集。

我们提出了一个新的方法来使用我们已有的大量的分类数据，用它来扩展当前检测系统的检测范围。我们的方法使用了目标分类的层次视图，允许我们将不同的数据集结合在一起。

我们同时提出了一种联合训练算法，允许我们使用检测和分类的数据来训练目标检测器。我们的方法利用标记的检测图片来学习精准的定位目标，使用分类图片来扩展类别和提高鲁棒性。

使用该方法我们训练了YOLO9000模型，一个可以检测超过9000种不同类别的物体的实时检测系统。首先，我们改进了基础的YOLO检测系统，升级为YOLOv2——最先进的实时检测系统。然后，使用我们的数据集组合方法和融合训练算法，使用来自ImageNet的超过9000种类别的数据和来自COCO的检测数据来训练一个模型。

所有的代码和预训练模型发布在：http://pjreddie.com/yolo9000/

2. Better

在这里插入图片描述
YOLO与最好的检测系统相比还有受多个缺点困扰。误差分析结果表明，与Fast R-CNN相比，YOLO出现了大量的定位错误。此外，与基于候选区域的方法相比YOLO的召回率相对较低。因此我们的主要精力放在在保持分类精度的同时提升召回率和定位精度。

计算机视觉通常趋向于更大、更深的网络[6] [18] [17]。更好的性能通常取决于训练更大的网络或将多个模型集成在一起。但是，有了YOLOv2，我们就有了一个精度更高并且速度仍然很快的检测器。我们没有扩展网络，相反我们简化了网络，这样使学习物体的表达更加容易。我们从过去的工作中的很多想法与我们自己新颖的观念结合起来，以提升YOLO的表现。结果汇总见表2。

Batch Normalization.(批量归一化) BN可以显著的提高收敛性，同时消除了对其他形式正则化的需求。将YOLO中所有的卷积层都加上BN后mAP提升了2%以上。BN同样有助于模型的正则化。使用BN后我们可以将模型中的dropout移除而不会出现过拟合。

High Resolution Classifier.(高分辨率分类器) 所有最先进的检测方法都使用在ImageNet[16]上预训练的分类器。从AlexNet开始大多数的分类器的输入图片分辨率都小于256x256[8]。原始YOLO使用224x224的图片来训练分类网络，检测网络会将分辨率提高到448。这就意味着网络必须同时切换到学习目标检测和调整到新的分辨率。

对于YOLOv2，我们在ImageNet数据集上使用448x448的分辨率的图片对分类网络进行了10个epoch的微调。这使网络时间来调整它的过滤器，使它能更好的处理更高分辨率的输入。然后我们将得到的网络针对检测进行微调。这个高分辨率的分类网络使mAP提升了近4%。

Convolutional With Anchor Boxes.(锚点框卷积) YOLO使用在提取特征的卷积层上面的全连接层直接预测边界框的坐标。与直接预测坐标不同，Faster R-CNN使用手工挑选的先验值[15]来预测边界框。Faster R-CNN中的RPN网络仅使用卷积层来预测边界框的偏移和置信度。由于RPN的预测层是卷积计算，它会在特征图的每一个位置来预测锚点框的偏移。预测偏移以预测位置简单的多，使问题得到了简化，也使网络学习起来更加容易。

我们移除了YOLO中的全连接层，使用锚点框来预测边界框。首先，我们去掉了一个池化层使网络的卷积层的输出具有更高的分辨率。同时我们将网络输入缩小到416替代以前448x448。这么做的原因是我们想让特征图中有奇数个位置，这样就只有一个中心单元。物体，尤其是大的物体，往往占据图像的中心，所以最好使用中心的一个位置来预测这些物体而不是中心附近的四个位置。YOLO的卷积层对图片进行了32倍的下采样，输入图片是416我们得到的特征图是13x13。

当我们转向使用锚点框后，我们还将类别预测机制与空间位置进行了解耦，取而代之的是为每个锚点框预测类别的目标。与YOLO一样，目标的预测仍然是预测真值框和建议框的IoU，类别预测是预测有物体的前提下，物体为该类别的条件概率。

使用锚点框后，精度略有下降。YOLO只为一张图片预测98个框，但是我们的模型预测超过一千个锚点框。在不使用锚点框我们的中间模型mAP为69.5，召回率为81%。使用锚点框后我们模型得到的mAP为69.2，召回率为88%。尽管mAP下降了&#