YOLO v1翻译

最新推荐文章于 2023-03-06 13:40:05 发布

一眼就相中那个粉色小姐姐的刘小奇

最新推荐文章于 2023-03-06 13:40:05 发布

阅读量565

点赞数

分类专栏： paper

本文链接：https://blog.csdn.net/qq_40014834/article/details/102774955

版权

paper 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

You Only Look Once:Unified, Real-Time Object Detection

Abstract

YOLO是一种新的目标检测方法。目标检测的先前工作都重新利用了分类器来进行检测。取而代之的是，我们将对象检测化为空间分隔边界框和对应类概率的回归问题。单个神经网络从一个完整图像上进行一次评估直接预测边界框以及相应类别的概率。因为整个检测管道是单个网络，在目标检测的表现上，它能够实现端到端的优化。

我们定义的网络结构实现起来非常快。我们可以以每秒45帧实时基于YOLO模型处理图像。像Fast YOLO这样比较小型的网络，我们可以惊人的发现，每秒可以处理155帧，可以达到其他实时检测器的两倍。与最先进的目标检测系统相比，YOLO发生定位错误比较多，但是不太可能预测背景错误。最后，YOLO学到了对象的一般表示。从自然图像延伸到艺术图像等其他领域时，YOLO的表现优于其他检测方法，包括DPM和R-CNN。

1. Introduction

人们只要看一眼图像，就能立即知道图像中的目标是什么，它们在哪里，以及它们是如何相互作用的。人类的视觉系统快速并且准确，让我们能够在几乎没有意识的情况下完成驾驶等复杂的任务。快速、准确的目标检测算法可以让计算机在没有专业传感器的情况下驾驶汽车，使辅助设备能够实时将场景信息传递给人类用户，并为通用响应机器人系统释放了潜力。

目前的检测系统重新使用分类器来执行目标检测。要检测一个目标，这些系统需要这个目标的分类器，并在不同位置对其进行评估以及测试图像中缩放。像可变部件模型(DPM:Deformable Parts Models)使用滑动窗口方法,DPM的分类器在整个图片上以均匀间隔位置运行。

最近如R-CNN的一些方法使用候选区域（region proposal）的方法，首先在图像中生成可能的边界框（bounding boxes），然后在这些候选边界框上运行分类器。分类之后，使用后处理（post-processing ）来提炼边界框，消除重复检测，根据场景中的其他目标重新设置边界框。这些复杂的流程运行缓慢且难以优化，因为每一个单独的部分必须分开训练。

在这里插入图片描述
图1： YOLO检测系统。使用YOLO处理图像非常简单。我们的系统（1）把输入图像调整为448×448，（2）在图像上运行单个卷积网络，并且（3）通过模型的可信度的阈值得到检测结果。

我们将目标检测作为一个单一的回归问题，直接从图像像素得到边界框坐标和类概率。使用我们的系统，你只需看一次图片(YOLO：You Look Only Once)，就可以预测物体是否存在和物体的位置。

YOLO非常简单:参见图1。一个卷积网络同时预测多个边界框和这些边界框的类概率。YOLO训练完整的图像，直接优化目标检测的效果。与传统的目标检测方法相比，这种统一的模型有几个优点。

首先，YOLO非常快。因为我们将检测作为一个回归问题，所以我们不需要之前那样复杂的流程。我们只是在测试时对新图像运行神经网络来预测检测结果。我们的基础网络以每秒45帧的速度运行，在Titan X GPU上没有批处理，并且有一个比较快的版本的运行速度超过了每秒150帧。这意味着我们可以实时处理流视频，延迟时间不到25毫秒。此外，YOLO的平均准确率是其他实时系统的两倍多。有关我们的系统在网络摄像头上实时运行的演示，请参阅我们的项目网页:http://pjreddie.com/yolo/

其次，YOLO在进行预测时，会考虑整张图像。与滑动窗口和基于候选区域的技术不同，YOLO在训练和测试时可以看到整个图像，因此它隐式地编码关于类及其外形的上下文信息。Fast R-CNN是一种高级的目标检测方法，由于它不能看到更大的图像区域，所以在目标图像中存在错误的背景补丁。与Fast R-CNN相比，YOLO产生的背景错误还不到一半。

第三，YOLO学习目标物体的通用表示（generalizable representations）。通过对自然图像的训练和对艺术作品的测试，YOLO的检测效果远远超过DPM和R-CNN等高级目标检测方法。由于YOLO是高度可泛化的，所以在应用到新领域或有意外输入时，我们在实验中进一步研究，使其平衡。

YOLO在准确度上仍然落后于最先进的检测系统。虽然它可以快速确定图像中的目标，但它很难精确定位某些目标对象，尤其是小目标。在未来的实验中我们会。

我们所有的训练和测试代码都是开源的。各种预训练的模型也可以下载。

2. Unified Detection

我们将目标检测的各个部分统一到一个单独的神经网络中。我们的网络使用整个图像的特征来预测每个边界框。它还可以同时预测一个图像在所有类中的所有边界框。这意味着我们的网络对整个图像和图像中的所有对象进行全局检测。YOLO设计支持端到端的训练和实时速度，同时保持较高的平均精度。

我们的系统将输入图像分割成S×S网格。如果一个目标物体的中心落进一个网格单元，那个网格单元负责检测那个物体。

每个网格单元格预测 B 边界框和这些边界框的置信度评分（confidence scores）。这些置信度评分反映了模型对边界框中包含目标对象的置信度，以及模型对边界框位置预测准确度。在形式上，我们将置信度定义为：
在这里插入图片描述
如果该单元格中不存在对象，则置信度得分应为零。否则，我们希望置信度得分等于预测边界框与真实边界框的IOU(intersection over union)。

每个边界框包含5个预测:x, y, w, h，置信度。(x, y)坐标表示边界框的中心相对于网格单元框。宽度和高度相对于整个图像来预测。最后置信度预测表示的是预测边界框和任意真实边界框之间的IOU值。

每个网格单元还预测 C 条件类概率，Pr(Class_i | Object)。这些概率取决于包含目标的网格单元。我们只预测每个网格单元的一组类概率，而不考虑边界框 B 的数量。

在测试时，我们将条件类概率和单个边界框的置信度预测相乘：
在这里插入图片描述
这就为我们提供了每个边界框的特定类别的置信度分数，这些分数同时编码了物体在边界框中出现的概率以及预测的边界框与目标对象的匹配程度。

在这里插入图片描述
图2: 模型。我们把目标检测系统当作一个回归问题。它将图像分成一个S×S网格单元，每个网格单元预测 B边界框、这些边界框的置信度、C 类目标物体的概率。这些预测被编码为 S × S × (B * 5 + C) 张量。

我们使用 S = 7，B = 2 来评价YOLO对 PASCAL VOC 的影响，PASCAL VOC 有20个标签类，所以 C = 20 。我们最后的预测是一个7×7×30张量。

2.1. Network Design

我们将该模型实现为卷积神经网络，并在 PASCAL VOC 检测数据集上进行了评估，网络中的初始卷积层从图像中提取特征，全连通层预测输出概率和坐标。

我们的网络架构受到了用于图像分类的GoogLeNet的启发，我们的网络有24个卷积层和2个全连接层。代替GoogLeNet使用的inception模块，我们简单地使用1×1的还原层(reduction layers)，然后是3×3的卷积层。整个网络如图3所示：
在这里插入图片描述
图3: 结构。我们的检测网络有24个卷积层，然后是2个全连接层。交替1×1卷积层减少了前一层的特征空间。我们以224 * 224的输入图像在ImageNet分类中预先训练了卷积层，然后将分辨率提高一倍(448 * 448）进行检测。

我们还训练了一个YOLO的快速版本，旨在突破快速目标检测的界限。Fast YOLO使用的神经网络具有更少的卷积层(9层而不是24层)和更少的过滤器。除了网络的大小，YOLO和Fast YOLO之间的所有训练和测试参数都是相同的。

我们网络的最终输出是预测的7×7×30张量。

2.2. Training

我们使用ImageNet 1000类竞赛数据集预训练了卷积层。对于预训练，我们使用的是图三中的前20个卷积层，后面是平均池化层和全连接层。我们训练这个网络大约用了一个星期，在2012年ImageNet验证集上，获得了单农作物前5的准确率（88%），可与Caffe的Model zoo上的GoogLeNet模型相媲美。

然后将模型转换为执行检测（perform detection）。Ren等人的研究表明，同时将卷积层和连接层都加入到预先训练的网络中可以提高性能。按照他们的例子，我们添加了四个卷积层和两个全连接层，并随机初始化权重。检测通常需要细粒度（fine-grained）的视觉信息，因此我们将网络的输入分辨率从224×224提高到448×448。

最后一层预测类概率和边界框坐标。我们通过图像的宽度和高度来归一化边界框的宽度和高度，使它们落在0和1之间。我们将边界框x和y坐标参数化为特定网格单元位置的偏移量，因此它们也在0和1之间。

我们对最后一层使用线性激活函数，其他层使用如下激活函数(leaky rectified linear activation):
在这里插入图片描述
我们对模型输出的平方和误差进行了优化。由于它很容易优化，所以我们使用平方和误差，但它并不完全符合我们最大化平均精度的目标。它衡量定位误差和分类误差的权重相等，这可能不太理想。而且，在每个图像中许多网格单元并不包含任何目标对象。这使得这些网格单元的置信度分数趋向于零，通常无法抵抗来自包含目标的网格单元的梯度。这会导致模型不稳定，导致早期的训练偏离（diverge）。

为了解决这个问题，我们增加了边界框坐标预测的损失，减少了不包含目标对象边界框的置信度预测的损失。我们使用两个参数 λ_coord 和 λ_noobj 来完成它。我们
设置 λ_coord = 5 和 λ_{noobj = 5} 。

平方和误差也同样权衡了在大边界框和小边界框上的误差。我们的误差度量应该反映出大边界框里的小偏差（deviations）比小盒子里的小偏差更重要。为了部分解决这个问题，我们预测边界框的宽度和高度的平方根而不是直接的宽度和高度。

YOLO预测每个网格单元中的多个边界框。在训练时，我们只想一个边界框预测器对每个目标负责。我们指定一个预测器来“负责”预测一个目标对象（根据哪个预测与真实的预测有最高的IOU）。这导致了边界框预测器之间的专门化。每个预测器在预测某些方面都做得更好（大小、长宽比、目标类别），提高总体召回。

在训练过程中，我们优化了以下多个部分的损失函数：
在这里插入图片描述
：目标是否出现在网格单元i中
：在网格单元i中的第j个边界框的预测器对这个预测“负责”

注意，损失函数只在网格单元中存在对象时才惩罚分类错误(因此前面讨论了条件类概率)。它也只惩罚边界框坐标错误，如果预测器是“负责”真相边界框框(即在网格单元中有最高的IOU的任何预测)。

我们在PASCAL VOC 2007和2012年的训练和验证数据集上训练神经网络135轮。在2012年的测试中，我们还使用了VOC 2007测试数据进行训练。在整个训练过程中，我们使用批处理大小为64，动量为0.9，衰减为0.0005。

我们的学习率安排如下：第一轮我们缓慢的将学习率从 10^-3 提高到 10^-2 。如果我们从一个高的学习率开始，那么由于不稳定的梯度，我们的模型往往是发散的。我们继续训练 10^-2 75轮，10^-3 30轮，最后 10^-4 30轮。

为了避免过度拟合，我们使用了dropout和大量的数据增强（data augmentation）。在第一个连接层之后使用使用 rate = .5 的dropout层阻止了层之间的相互适应。为了增加数据，我们引入了随机缩放和原始图像大小20%的转化。我们还随机调整图像的曝光和饱和度（HSV色彩空间的1.5倍）。

2.3. Inference

与训练中一样，对于测试图像进行目标检测的预测只需要一个网络评估。在PASCAL VOC上，该网络每个图象预测98个边界框和每个边界框框的类概率。YOLO在测试时速度非常快，因为它只需要一个单一的网络评估，不像基于分类器的方法。

网格设计在边界框预测中增强了空间多样性（spatial diversity）。通常情况下，一个对象落在哪个网格单元中是很清楚的，而网络只预测每个目标对象的一个格子。但是，一些大的目标对象或多个单元格边界附近的对象可以被多个单元格很好地定位。非最大抑制（Non-maximal suppression）可以用来修复这些多重检测。虽然不像R-CNN或DPM那样对表现很严格，但非最大抑制在平均精度均值（mAP：Mean Average Precision）中增加了2-3%。

2.4. Limitations of YOLO

YOLO对边界框预测有很强的空间限制，因为每个网格单元只预测两个框并且只能有一个类。这种空间约束限制了我们的模型可以预测的附近物体的数量。我们的模型与在群里中的小目标对象进行斗争，如鸟群。

因为我们的模型学会根据数据预测边界框，它很难将其推广到具有新的或不寻常的长宽比或者构造的对象。我们的模型使用相对粗糙的特征来预测边界框，因为我们的结构有多个来自输入图像的下采样层。

最后，虽然我们训练的是一个接近检测性能的损失函数，但是我们的损失函数在小边界框与大边界框中对待错误的方式相同。在大边界框中的小错误一般是良性的，但是在小边界框中的小错误对于IOU的效果更大。错误的主要来源是不正确的本地化（incorrect localizations）。

3. Comparison to Other Detection Systems

目标检测是计算机视觉的核心问题。检测管道通常从输入图像中提取一组鲁棒特征(Haar、SIFT、HOG、convolutional features)开始。然后,分类器或定位器用于识别特征空间中的对象。这些分类器或定位器以滑动窗口的方式在整个图像上运行，或者在图像的某些区域的子集上运行。我们将YOLO检测系统与几个顶级检测框架进行比较，突出关键的相似点和不同点。

Deformable parts models ： Deformable parts models(DPM)使用滑动窗口方法进行目标检测。DPM使用一个不相交的管道来提取静态特征，对区域进行分类，预测得分较高的边界框等。我们的系统取代了所有这些不同的部分，只有一个卷积神经网络。网络同时执行特征提取、边界框预测、非最大抑制和上下文推理。与静态特性不同，网络在线训练特性并优化它们以完成目标检测任务。我们的统一架构使得比DPM模型更快、更准确。

**R-CNN： ** R-CNN及其变体使用候选区域而不是滑动窗口来查找图像中的目标对象。选择性搜索生成潜在的边界框，卷积网络提取特征，支持向量机对边界框进行评分，线性模型调整边界框，非最大抑制消除重复检测。这个复杂的过程的每个阶段都必须独立地精确地进行调优，并且产生的系统非常慢，在测试时每幅图像要花费超过40秒的时间。

YOLO和R-CNN有一些相似之处。每个网格单元提出潜在的边界框，并使用卷积特性对这些框进行评分。然而，我们的系统对候选的网格单元设置了空间限制，这有助于减轻对同一目标的多次探测。我们的系统也提出了更少的边界框，每幅图像只有98个，而选择性搜索大约2000个。最后，我们的系统将这些单独的部分组合成一个单独的、联合优化的模型。

**Other Fast Detectors： ** Fast R-CNN 与 Faster R-CNN专注于通过共享计算和使用神经网络得到候选区域代替选择性搜索来加速R-CNN框架。与R-CNN相比，它们在速度和精度上都有提高，但都无法达到实时性能。

许多研究工作专注在加速DPM管道。它们使用级联（cascades）以及把计算交给GPU来加速HOG计算，然而，只有30Hz的DPM[30]是实时运行的。

YOLO并没有试图优化大型检测过程中的各个组件，而是完全抛弃了管道，设计速度很快。

针对单个类(如人脸或人)的检测器可以进行高度优化，因为它们必须处理更少的变化。YOLO是一个通用的目标检测器，它可以同时检测多种物体。
**Deep MultiBox： ** 与R-CNN不同，Szegedy等人训练卷积神经网络来预测感兴趣的区域，而不是使用选择性搜索。MultiBox还可以用单类预测代替置信度预测来进行单目标检测。但是，MultiBox不能进行一般的目标检测，它只是一个更大的检测过程（pipline）中的一部分，需要进一步的图像分类。YOLO和MultiBox都使用卷积网络来预测图像中的边界框，但YOLO是一个完整的检测系统。

**OverFeat： ** Sermanet等人训练卷积神经网络进行定位，并采用该定位器进行检测。OverFeat能有效地实现滑动窗口检测，但仍然是一个不相交的系统。OverFeat优化定位，而不是检测性能。与DPM一样，定位器在进行预测时只查看局部信息。OverFeat不能推理出全局上下文，因此需要大量的后处理（post-processing）来产生连贯的探测。

**MultiGrasp： ** 我们的工作在设计上类似于Redmon等人的抓取检测（grasp detection）。我们用于边界框预测的网格方法是基于多重抓取系统（MultiGrasp system）回归掌握。但是，抓取检测比对象检测简单得多。对于包含一个对象的图像，多重抓取只需要预测单个可抓取区域（graspable region）。它不需要估计目标对象的大小、位置或边界，也不需要预测物体的类别，只需要找到一个合适的抓取区域。YOLO可以同时预测一个图像中多个类的多个对象的边界框和类概率。

4. Experiments

首先，我们在PASCAL VOC 2007数据集上用YOLO与其他的实时检测系统进行比较。为了了解YOLO和R-CNN变体之间的区别，我们探索了YOLO和Fast R-CNN在VOC 2007上的错误，Fast R-CNN是表现最好的R-CNN版本之一。根据不同的错误配置文件上，我们表明YOLO可以用于重新计算Fast R-CNN检测值并减少背景假阳性（false positives）引起的错误，大大提高了性能。我们还介绍了VOC 2012的结果并且比较目前最先进的方法的mAP。最后，我们显示YOLO在两个艺术品数据集上比其他目标检测器能更好地推广到其他新领域。

4.1. Comparison to Other Real-Time Systems

目标检测方面的许多研究工作都集中在快速建立标准检测管道上。但是，只有Sadeghi等人实际上产生了一个实时运行的检测系统（每秒30帧或更高）。我们将YOLO与他们以30Hz或100Hz运行的DPM的GPU实现进行了比较。虽然其他效果未达到实时里程碑，但是我们还比较了它们的相对mAP和速度，以检查目标检测系统中可用的精度-性能折衷。

Fast YOLO是PASCAL数据集上最快的目标检测方法。据我们所知，它是现存最快的目标检测器。凭借52.7％的mAP，它的准确性是之前实时检测工作的两倍多。 YOLO将mAP提升至63.4％，同时仍保持实时性能。

我们还使用VGG-16来训练YOLO。这个模型比YOLO更精确，但也比YOLO慢得多。与依赖VGG-16的其他检测系统进行比较时很有用，但是由于它比实时速度慢，因此本文的其余部分将重点放在我们更快的模型上。

最快的DPM在不牺牲很多mAP的情况下有效地加快DPM的速度，但是它仍然无法将实时性能降低2倍。与神经网络方法相比，DPM的检测精度也相对较低。

R-CNN减R用静态边界候选框取代了“选择性搜索”。尽管它比R-CNN快得多，但它仍然缺乏实时性，并且由于没有好的建议而对准确性造成重大影响。

在这里插入图片描述
表1: PASCAL VOC 2007上的实时系统。比较各个快速目标检测器的性能和速度。Fast YOLO是在PASCAL VOC上最快的目标检测器。YOLO比快速版本的精度高10 mAP，并且仍远远高于实时速度。。

Fast R-CNN加快了R-CNN的分类阶段,但是它仍然依赖于选择性搜索，每个图像大约需要2秒钟才能生成候选界框。因此，它具有较高的mAP，但在0.5 fps仍离实时性还很远。

最近的Faster R-CNN用神经网络取代了选择性搜索提取候选边界框，与Szegedy等人差不多。在我们的测试中，他们最准确的模型可以达到7 fps，而较小、准确度较低的模型可以18 fps运行。 Faster R-CNN的VGG-16版本高出10 mAP，但比YOLO慢6倍。 ZeilerFergus 的 Faster R-CNN仅比YOLO慢2.5倍但也不太准确。

4.2. VOC 2007 Error Analysis

为了进一步检查YOLO和最先进的目标检测器之间的差异，我们查看了VOC 2007结果的详细分解。我们将YOLO与Fast R-CNN进行了比较，因为Fast R-CNN是在PASCAL上性能最高的目标检测器之一，它的目标检测结果是公开可用的。

我们使用Hoiem等人的方法论和工具。对于测试时中的每个类别，我们查看该类别的前N个预测。每个预测要么是正确的，要么是根据错误类型进行分类的：

Correct: 正确分类并且 IOU > 0.5
Localization: 正确分类，0.1 < IOU < 0.5
Similar: 类别相似，IOU > 0.1
Other: 类别错误 ,IOU > 0.1
Background: 对于任何目标 IOU < 0.1

图4： 错误分析：Fast R-CNN vs. YOLO 图表显示了各种类别的定位和背景错误的百分比（N : 该类别中的N个对象）。

图4显示了所有20个类别的平均每种错误类型的划分。

YOLO努力正确地定位目标对象。定位错误(Localization errors)占YOLO错误的比所有其他来源的总和还多。 Fast R-CNN产生的定位错误少得多，但是背景错误却多得多。最高目标检测到的13.6％是不包含任何目标对象的误报。 Fast R-CNN预测背景检测错误率几乎是YOLO的3倍。

4.3. Combining Fast R-CNN and YOLO

与Fast R-CNN相比，YOLO产生的背景错误少得多。通过使用YOLO消除Fast R-CNN的背景检测错误，我们可以显着提高性能。对于R-CNN预测的每个边界框，我们都会检查YOLO是否预测了类似的边界框。如果是这样，我们将根据YOLO预测的概率和两个边界框之间的重叠来对该预测进行增强。
在这里插入图片描述
表2： 在VOC 2007上进行的模型组合实验。研究将各种模型与Fast R-CNN的最佳版本结合使用的效果。其他版本的Fast R-CNN仅带来很小的好处，而YOLO可以显着提升性能。

最佳的Fast R-CNN模型在VOC 2007测试集上的mAP达到71.8％。与YOLO结合使用时，其mAP增长3.2％，达到75.0％。我们还尝试将the top Fast R-CNN模型与Fast R-CNN的其他几个版本结合使用。这些模型组合的mAP在0.3和0.6％之间有小幅增加，有关详细信息，请参见表2。

在这里插入图片描述
表3： PASCAL VOC 2012排行榜。 YOLO与截至2015年11月6日的完整 comp4 (允许外部数据)公众排行榜相比。显示了各种目标检测方法的平均平均精度和每类平均精度。 YOLO是只有实时的目标检测器。 Fast R-CNN + YOLO是得分最高的方法，比Fast R-CNN高2.3％。

YOLO的提升不只是模型结合的副产品，因为组合不同版本的Fast R-CNN几乎没有好处。恰恰是因为YOLO在测试时犯了各种错误，所以它在提高Fast R-CNN的性能方面是如此有效。

不幸的是，这种组合无法得到YOLO的速度的优势，因为我们分别运行每个模型然后组合结果。但是，由于YOLO是如此之快，与Fast R-CNN相比，它不会增加任何的计算时间。。

4.4. VOC 2012 Results

在VOC 2012测试集中，YOLO得分57.9% mAP。这低于当前的技术水平，更接近于使用VGG-16的原始R-CNN(见表3)。与最近的竞争对手相比，我们的系统在处理小目标时比较困难。在瓶子、绵羊和电视/显示器等类别中，YOLO得分比R-CNN或Feature Edit低8-10%。然而，在猫和火车等其他类别中，YOLO的表现更好。

我们组合的Fast R-CNN + YOLO模型是表现最好的目标检测方法。Fast R-CNN从组合的YOLO那里提升了2.3%，在公共排行榜上上升5位。

4.5. Generalizability: Person Detection in Artwork

用于目标检测的学术数据集从相同的分布中提取训练和测试数据。在真实的应用程序中，很难预测所有可能的用例，并且测试数据可能与系统在之前看到的情况不同。我们在Picasso数据集和Person-Art数据集上用YOLO与其他目标检测系统进行了比较，两个数据集用于测试在艺术画上人的检测。

图5显示了YOLO和其他目标检测方法之间的性能比较。作为参考，在所有的模型都只在VOC 2007数据上进行训练的情况下,我们给出了VOC 2007数据集上person类的检测平均精度（AP）。 Picasso模型在VOC 2012数据集上进行训练，而People-Art模型在VOC 2010数据集上进行训练。
在这里插入图片描述

R-CNN在VOC 2007上具有较高的AP。但是，R-CNN在应用于艺术画时会大幅下降。 R-CNN将“选择性搜索”用于候选边界框，该建议方法对自然图像进行了调整。 R-CNN中的分类的步骤只能看到很小的区域，并且需要好的建议。

当DPM应用于艺术图像时，可以很好地维持其平均精度AP。先前的工作理论认为DPM表现良好是因为它具有强大的目标对象形状和布局空间模型。虽然DPM的性能不如R-CNN，但是它的平均精度（AP）比较低。

YOLO在VOC 2007上有很好的表现，它在艺术图像上的平均精度不如其他方法。与DPM一样，YOLO模拟目标对象的大小和形状，以及对象和对象通常出现的位置之间的关系。艺术和自然图像在像素水平上有很大的不同，但是它们在目标对象的大小和形状上是相似的，因此YOLO仍然可以预测出好的边界框和目标检测。

5. Real-Time Detection In The Wild

YOLO是一种快速、准确的目标探测器，非常适合计算机视觉应用。我们将YOLO连接到一个网络摄像头，并验证其保持实时性能，包括从摄像头获取图像和显示检测结果的时间。

最终的系统是交互式的、引人入胜的。当YOLO单独处理图像时，当它连接到网络摄像头时，它就像一个跟踪系统，探测物体的移动和外观变化。这个系统的演示和源代码可以在我们的项目网站上找到:http://pjreddie.com/yolo/。

6. Conclusion

我们介绍了YOLO，这是用于目标检测的统一模型。我们的模型构造简单，可以直接在完整图像上进行训练。与基于分类器的方法不同，YOLO在损失函数上进行训练，该函数直接对应于检测性能，并且整个模型都在训练中。

Fast YOLO是文献中最快的通用目标检测器，YOLO推动了实时目标检测的最新发展。 YOLO还可以很好地推广到新领域，使其成为快速，强大的目标检测。

一眼就相中那个粉色小姐姐的刘小奇

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
YOLO v1翻译

You Only Look Once:Unified, Real-Time Object DetectionAbstractYOLO是一种新的目标检测方法。目标检测的先前工作都重新利用了分类器来进行检测。取而代之的是，我们将对象检测化为空间分隔边界框和对应类概率的回归问题。单个神经网络从一个完整图像上进行一次评估直接预测边界框以及相应类别的概率。因为整个检测管道是单个网络，在目标检测的表现上，...
复制链接

扫一扫

专栏目录