yolov2论文翻译

最新推荐文章于 2025-04-11 15:55:15 发布

HMW19

最新推荐文章于 2025-04-11 15:55:15 发布

阅读量1.3w

点赞数 2

分类专栏：深度学习文章标签：深度学习 YOLO

本文链接：https://blog.csdn.net/weixin_35654926/article/details/72473024

版权

YOLOv2通过多种改进提升了目标检测的准确性和速度，包括批量标准化、高分辨率分类器、anchor box预测、直接位置预测和多尺度训练。在VOC 2007上，YOLOv2达到76.8 mAP，同时以67 FPS的速度运行。此外，YOLO9000通过联合训练方法实现了对9000多个类别检测的实时预测，即使在ImageNet检测数据集上未经标记的目标类别也能进行检测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：YOLO9000:Better, Faster, Stronger
项目主页：YOLO: Real-Time Object Detection

摘要：
我们介绍YOLO9000，一个最先进的，实时目标检测系统，可以检测超过9000个目标类别。首先，我们提出对YOLO检测方法的各种改进方法，包括新颖的和从以前的工作中得出的。改进的模型YOLOv2在如PASCAL VOC和COCO标准检测任务是最先进的。使用一种新颖的多尺度训练方法，相同的YOLOv2模型可以运行在不同的大小的图片上，提供速度和精度之间的轻松权衡。在67 FPS时，YOLOv2在VOC 2007上获得76.8 mAP。在40 FPS时，YOLOv2获得78.6 mAP，性能优于最先进的方法，例如使用ResNet的faster RCNN和SSD，同时运行速度明显更快。最后，我们提出了一种联合训练目标检测和分类的方法。使用这种方法，我们在COCO检测数据集和ImageNet分类数据集上同时训练YOLO9000。我们的联合训练方法允许YOLO9000预测没有标记检测数据的目标类的检测。我们在ImageNet检测数据集上验证我们的方法。YOLO9000在ImageNet检测验证集上获得19.7 mAP，尽管只有200个类中的44类检测数据。在不在COCO的156类中，YOLO9000获得16.0 mAP。但是YOLO可以检测超过200个类;它预测超过9000个不同目标类别的检测。它仍然实时运行。

1、引言
通用目标检测应该快速，准确，并且能够识别各种各样的目标。自从引入神经网络以来，检测框架已经变得越来越快速和准确。然而，大多数检测方法仍然局限于一小组目标。

与分类和标记等其他任务的数据集相比，当前目标检测数据集是有限的。最常见的检测数据集包含数十到数十万的图像，具有几十到几百个标签。分类数据集具有数百万个具有数十或数十万类别的图像。

我们希望检测可以缩放到目标分类的级别。然而，用于检测的标记图像比用于分类或标记的标记（标签通常由用户免费提供）昂贵得多。因此，我们不太可能在不久的将来看到与分类数据集相同规模的检测数据集。

我们提出了一种新方法来利用我们已经拥有的大量分类数据，并使用它来扩大当前检测系统的范围。我们的方法使用目标分类的层次视图，允许我们将不同的数据集合在一起。

我们还提出了联合训练算法，允许我们在检测和分类数据上训练目标检测器。我们的方法利用标记的检测图像来学习精确地定位目标，同时使用分类图像来增加其词汇和鲁棒性。

使用这种方法，我们训练YOLO9000，一个实时目标检测器，可以检测超过9000不同的目标类别。首先，我们改进基本的YOLO检测系统，以产生YOLOv2，一个最先进的，实时检测器。然后我们使用我们的数据集组合方法和联合训练算法来训练来自ImageNet的超过9000个类的模型以及来自COCO的检测数据。

我们的所有代码和预训练模型都可以在http://pjreddie.com/yolo9000/在线获得。

这里写图片描述

2、更好

相对于现有技术的检测系统，YOLO具有各种缺点。与fast RCNN相比，YOLO的误差分析显示YOLO产生大量的定位误差。此外，与基于候选区域的方法相比，YOLO具有相对较低的召回率率。因此，我们主要集中在改进召回率和定位，同时保持分类精度。

计算机视觉通常趋向于更大，更深的网络。更好的性能通常取决于训练更大的网络或将多个模型组合在一起。然而，使用YOLOv2，我们需要一个更加精确的检测器使得它仍然很快。我们不是扩展我们的网络，而是简化网络，使表示更容易学习。我们从过去的工作中融合了我们自己的新概念的各种想法，以提高YOLO的性能。结果总结可以在表2中找到。

批量标准化。批量归一化导致收敛的显着改善，而不需要其他形式的正则化。通过在YOLO中的所有卷积层上添加批量归一化，我们在mAP中获得超过2％的改进效果。批量规范化也有助于规范模型。使用批次标准化，我们可以从模型中dropout，而不会过度拟合。

高分辨率分类器。所有最先进的检测方法使用ImageNet预训练分类器。从AlexNet开始，大多数分类器对小于256×256的输入图像进行操作[8]。原来的YOLO在224×224分辨率上训练分类器网络，并将分辨率增加到448以用于检测。这意味着网络必须同时切换到学习目标检测并调整到新的输入分辨率。

对于YOLOv2，我们首先在分辨率为448×448的分辨率下对ImageNet上的10个epoch进行微调。这种网络时间可以在较高分辨率输入上调整滤波器。然后我们在检测时微调所得到的网络。这种高分辨率分类网络使我们增加了近4％的mAP。

使用anchor box进行卷积。YOLO直接使用卷积特征提取器顶部的完全连接的层来预测边界框的坐标。相比于直接预测坐标，faster RCNN使用手动挑选的先验预测边界框[15]来预测左边。仅使用卷积层，faster RCNN中的区域建议网络（RPN）预测anchor box的偏移和置信度。由于预测层是卷积的，因此RPN在特征图中的每个位置处预测这些偏移。预测偏移而不是预测坐标简化了问题，并使网络更容易学习。

我们从YOLO中删除全连接层，并使用anchor box预测边界框。首先，我们消除一个池化层，使网络的卷积层的输出更高的分辨率。我们还缩小网络将输入尺寸为416而不是448×448。我们