深度学习论文翻译 -- YOLO-V1

最新推荐文章于 2023-02-17 17:02:59 发布

X_Imagine

最新推荐文章于 2023-02-17 17:02:59 发布

阅读量372

点赞数 2

分类专栏：深度学习论文翻译文章标签：目标检测 YOLO-V1 YOLO-V1损失函数人工智能

本文链接：https://blog.csdn.net/kxh123456/article/details/106273002

版权

深度学习论文翻译专栏收录该内容

20 篇文章 18 订阅

订阅专栏

本文翻译为目标检测论文系列：yolo-v1，You Only Look Once: Unified, Real-Time Object Detection
论文链接：https://arxiv.org/pdf/1506.02640.pdf
开源地址：http://pjreddie.com/yolo/

Abstract

在这里插入图片描述
本文提出目标检测（object detection）的新方法，YOLO。之前的方法，都是将分类网络迁移到目标检测任务。相反的，我们将目标检测当作回归类问题（regression problem），空间上将边框（bounding boxes）和类概率（class probabilities）分开处理。通过一个单独的网络同时得到定位边框和目标所属类别，并且输入是完整的图像。由于整个检测框架是一个网络，所以可以直接进行端到端的优化。
我们提出的网络速度非常快。YOLO模型可以达到 45 FPS/s，更轻量级的YOLO可以达到 155 FPS/s，并且mAP比其它实时的目标检测网络高2倍。与其它经典的目标检测系统相比，YOLO定位误差更大，但是在图片背景区域的FP（false positive）值很低。最终，YOLO学习到更为一般（通用）的目标特征表达。优于DPM和R-CNN方法，特别是将网络应用于艺术目标检测。

主要内容：
1、提出新的目标检测框架（yolo），它是一阶段检测算法，输入图像+网络，可以直接得到边框和对象所属类别；
2、速度非常快， 45FPS~155FPS;
3、相比于其它目标检测系统，定位误差较高，但是FP值低。

1. Introduction

在这里插入图片描述
人类的视觉系统是非常快且精确的，能够很快的从图片中获取目标的类别和位置。快速，精确的目标检测算法可以使得自动驾驶能够快速感知周围的环境，而不需要特定的传感器和辅助设备。
当前的目标检测系统，通常将图像分类网络迁移到目标检测，比如VGG，ResNet网络。为了检测目标，对图片上不同的目标位置进行分类、评估。比如DPM系统，使用滑动窗口的方法，然后分类器对每个窗口位置进行评估，判定是否存在目标。

在这里插入图片描述
最近的目标检测网络，R-CNN，使用区域推荐的方法在图片中生成大量的候选框，然后使用分类器对这些候选框进行类别判定。分类之后，使用后处理的方法，对目标框进行边界修正，消除多余的边界框，然后通过极大值抑制的方法，得到最终的目标检测框。由于这类方法（two-stage method）的每一个阶段是独立的，因此非常慢，而且很难优化，每一个模块都需单独训练。
我们将目标检测网络设计为单个回归结构，直接从像素值得到目标检测框和分类概率值。使用本文的系统，你只需看一次就可以知道目标的位置和类别。
在这里插入图片描述
YOLO的整体流程非常简单，见 Figure 1。借助单个卷积网络，同时预测多个边界框（bounding boxes）和每个框的类别概率。YOLO在整张图上训练，对目标检测进行直接的优化。与传统的方法相比，这种统一的结构有很多好处。

首先，YOLO速度非常快。该部分与摘要部分描述一样，不作翻译。
其次，在预测图片时，YOLO可以全局的解析图片。不像滑动窗口和区域推荐的方法，YOLO可以看到整张图片，对图片的中对象的类别和外表进行更深的上下文编码。比如Fast R-CNN，由于没有没有看到更大的图片区域，没法获得更加全局的信息，因此背景的误分类更高。与Fast
R-CNN相比，YOLO背景误分类低于2倍。
最后，YOLO可以学到目标更为一般的表达。当在自然场景下图片上训练，测试在艺术图像上，YOLO远优于DPM和R-CNN类方法。当应用与新的场景或者特别的输入图片时，YOLO更加通用。

在定位精度上，YOLO仍落后于经典的目标检测系统。尤其对小目标的检测，精度很差。

在这里插入图片描述

2. Unified Detection

在这里插入图片描述
我们将目标检测独立的模块集成到单个神经网络（这里是与RCNN系列网络的多阶段目标检测作对比）。YOLO网络用全图提取的特征来预测所有的边界框。同时预测的还有每个边框所属的类别。这也意味着，我们的网络更加合理的处理整幅图像。这种网络设计使得YOLO能够端到端的训练，在保持较高精度的同时兼顾速度。

在这里插入图片描述

我们的目标检测系统将输入图像分割为SxS的网格。如果一个目标的中心落在某个网格中，那么该网格负责检测这个目标。每一个网络单元预测B个包围盒（bounding boxes）以及每个包围盒的置信度分数。这些置信度分数反应出该包围盒包含目标以及包含目标的可信度有多高。一般情况下，我们定义置信度为： $Pr(Object)*IOU^{truth}_{pred}$ 。如果该网格单元中没有目标存在，那么置信度分数（confidence score）为零。否则，我们期望置信度分数等于预测框和真实框的交并比（IOU），这就意味着预测包含目标的概率为1.

每一个包围盒包含5个预测值： $x, y, w, h$ 和置信度值。其中， $(x, y)$ 表示包围盒的中心（相对于该网格单元的左上角）。 $(w, h)$ 分别表示相对于原图像的宽高。置信度的值如上述表达公式。每一个网格单元仍然预测C个条件概率值， $Pr(Class_i|Object)$ 。这些概率存在的条件是：该包围框包含目标。针对每一个网格单元（grid cell），我们会预测一组概率值，而不管该网格单元有多少个预测边框（B）。在测试的过程中，我们将类别概率与单个包围盒置信度预测，公式如下：
$Pr(Class_i|Object) *Pr(Object)*IOU^{truth}_{pred} = Pr(Class_i)*IOU^{truth}_{pred}\tag 1$
该公式给出了每个包围盒的特定类的置信度分数。同时，这些分数不仅给出了该边框内的所属类别的概率，同时也反映了该包围盒适合该目标的程度。

核心要点：

（x，y，w，h）分别表示相对于当前单元格的左上角和整幅图像的宽高，而不是相对于图像的。
如果该网格单元包含目标，则 $P r (O b j e c t) = 1$ ，否则 $P r (O b j e c t) = 0$ .
预测的概率值个数C与预测的包围盒的个数无直接关系。

在这里插入图片描述
在PASCAL VOC上，我们令 $S = 7, B = 2$ . 该数据集总共20类，因此 $C = 20$ . 最终预测的向量维度为： $7\times7\times30$ . 其中，每个包围盒预测维度为5：（x，y，w，h）和置信度分数。所以 $30=B(2)\times5+C(20)$ .

网络的处理流程，以及网络的输出形状如下图所示：

在这里插入图片描述

2.1. Network Design

在这里插入图片描述
我们的网络也是卷积网络，在PASCAL VOC上训练。该网络的卷积部分用于提取图像特征，而全连接层用于预测最终的概率值和相关坐标值。我们的灵感来源于图像分类网络-GoogleNet。我们的网络包含24层卷积网络和2层全连接层。与GoogleNet中的Inception模块不同的是，我们将其简化为1x1conv（降维）+3x3conv，整个网络结构如图3. 我们同时训练了YOLO的快速版本，该版本使用更少的卷积层（9层，而不是24）以及每一层更少的卷积核。除了大小不一样，训练的参数都一样。

在这里插入图片描述

2.2. Training

在这里插入图片描述

首先，我们在ImageNet上进行预训练网络，预训练网络为：20层卷积+1层平均池化+1层全连接。我们总共训练了一周，top-5精度为88%。我们使用Darknet框架进行所有的训练和推断。然后我们将网络转为训练目标检测任务。Ren et al. 研究表明，在预训练网络上增加卷积和全连接层可以增加网络性能。基于该研究，我们添加四层卷积层和两层全连接层（随机初始化权重）。因为检测任务需要更为细粒度的视觉特征，所以我们将输入图像的分辨率从224x224到448x448.

在这里插入图片描述
我们网络的最后一层预测类别概率和边框坐标。我们将边框的宽和高归一化（边框宽高除以图像的宽高），这样可以保证值落在0和1之间。并且，我们将边框的（x，y）坐标变为相对于该网格单元左上角的偏移量，这样的值同样位于0和1之间。最后一层使用线性激活函数，其它层使用带泄漏的线性修正单元（Leaky ReLU），公式如下：
$\phi(x) = \begin{cases} x & if \quad x > 0 \\ 0.1x & othewise \end{cases}\tag2$

在这里插入图片描述

优化的损失函数为平方和误差，因为该函数易优化，但是该函数并不是完美契合我们的目标：最大化平均精度。不仅如此，他将定位误差和分类误差的权重设置为一样也并不是很好。而且，在每一幅图像中，很多网格单元并没有包含任何目标，均是背景类。那么这些网格内的置信度分数均为零，这样会使得梯度过分倾向于包含目标的网格。这样会导致网络训练不稳定，网络可能会发散。

在这里插入图片描述
为了补救这个缺陷，我们增加包围盒坐标的预测的损失，降低没有包含目标包围盒的置信度预测。因此，我们使用两个参数， $\lambda_{coord}=5,\lambda_{noobj}=0.5$ 来调整。平方和误差使得大的包围盒和小的包围盒的误差权重一样。我们的评价准则应该反映：偏差的大小应该与包围盒的大小无关。为了解决这个问题，我们使用预测包围盒宽高的平方根，而不是直接的宽高。

在这里插入图片描述

在每个网格（grid cell）中，YOLO预测多个包围框。在训练过程中，我们仅希望一个边框负责一个目标。我们选择最高的IOU的预测边框作为负责当前对象的边框。这样会导致每一类边框预测的特定化。每一个预测框可能针对特定的目标大小，宽高比率，或者目标类别，这样提高了整体的召回率。

训练过程中，我们优化如下四部分损失函数：

在这里插入图片描述
关于损失函数的每一部分解释如下：

在这里插入图片描述

这里， $\mathbb{I}_i^{obj}$ 表示：如果目标出现在单元 $i$ 中， $\mathbb{I}_{ij}^{obj}$ 表示网格单元 $i$ 中第 $j$ 个包围盒负责检测这个目标。

在这里插入图片描述

我们在PASCAL VOC 2007和2012数据集上训练135 epoch。当在2012上测试数据时，我们仍包含VOC2007训练。训练过程中，batch_size=64，momentum=0.9，decay=0.0005.

学习率策略如下：第一轮的时候，将学习率从0.001缓慢提高到0.01. 如果学习率过高，由于梯度的不稳定，网络容易发散。然后以0.01的学习率训练75轮，0.001训练30轮，最后30轮的学习率为0.0001.

为了避免过拟合，使用dropout和数据增强。第一个全连接层之后的dropout=0.5。数据增强：随机缩放和随机位移的最大幅度为原图的20%. 同时会在HSV空间随机调整曝光度和饱和度，调整系数为1.5.

2.3. Inference

在这里插入图片描述

正如训练过程一样，预测过程中只需要一个网络。在PASCAL VOC上，每一个图像预测98（7x7x2）个边框以及类概率。与基于分类网络的方法不同的是，由于使用单独一个网络，YOLO非常快。

网格的设计使得背景框预测的空间多样性。通常情况下，很容易知道目标落在哪个网格内，并且网络为每一个目标预测一个包围盒。但是，一些大的目标或者目标的中心在多个网格的边界，那么这个目标可能会被多个网格预测（grid cell）。后面会使用极大值抑制的方法处理这种情况。对于R-CNN和DPM而言并不是至关重要的，非极大值抑制会提高2-3% mAP。

2.4. Limitations of YOLO

在这里插入图片描述
YOLO对预测边框施加了很强的空间约束：一个网格只预测2个包围盒，并且只预测一个类别。那么对空间上靠近的目标预测较差。特别是预测小目标，比如成群的鸟。

由于我们的模型完全从数据中学习预测边框，那么对于一些新的或者没有训练到的图像比率中的目标还是很有挑战性的。YOLO网络进行了多次的降采样操作，使得网络提取相对粗糙的特征。

最后，由于我们的损失函数更倾向于检测的表现，所以我们的损失函数对大目标和小目标损失同等对待。大的目标中的小误差可能影响不大，但是小包围框的小的损失影响很大。我们的损失大部分来源于不正确的定位。

3. Comparison to Other Detection Systems

在这里插入图片描述

目标检测是计算机视觉的核心问题。检测的基本流程：1.从输入图像中提取丰富稳定的特征（比如SIFT，Haar，HOG），卷积特征。2. 使用分类器或者定位器在特征空间辨别目标。方法要么是在图像空间滑动或者子空间滑动搜索。我们将YOLO与多个顶级的目标检测系统进行对比，并给出他们的相似性和差异性。

在这里插入图片描述

Deformable Parts Model：DPM使用滑动窗口进行目标检测。该模型的整个流程是孤立的：提取静态特征；2. 分类；3. 预测包围框等。然而，YOLO只用一个卷积网络代替上述的不连贯流程。合理的将特征提取、边框预测和极大值抑制组合在一起。与DPM使用静态特征不同的是，我们统一训练网络，并且优化的目标是目标检测。我们统一的网络结构使得速度更快，精度更高。

在这里插入图片描述

R-CNN：R-CNN以及其变体使用区域候选（region proposals）而不是滑动窗口的方式在图像中搜索目标候选区域。选择性搜索（selective search）方法可以生成好的包围盒，并使用卷积网络在候选框内提取特征，SVM给出每个框相应的分数，一个线性模型判别这些包围盒，非极大抑制区域冗余的边框。上述每一个模块都必须精心的优化，所以整个流程非常慢。测试一张图像需要40秒。

YOLO与R-CNN的相似在于：每一个网格内处理潜在的包围盒，并使用卷积网络评定这些包围盒。但是，我们对网格进行强空间约束，有效减轻对同一个目标的重复检测。我们的系统同样产生更少的候选框，只有98个（R-CNN 2000个左右）。最后，我们的系统只有一个流程，更加高效。

在这里插入图片描述
Other Fast Detectors：Fast and Faster R-CNN 主要是通过共享计算和使用卷积网络生成候选框（不是Selective Search）提高R-CNN的检测速度。虽然提高了速度，但是并没有达到实时。很多研究致力于提高DPM的速度，比如使用级联的HOG计算，将计算放到GPU上。但是，仅仅达到30Hz的速度。与仅仅考虑优化单独的模块相比，YOLO将所有的检测流程集中于一个网络，速度很快。针对单类目标（比如人脸）检测的检测器，可以优化的很好。YOLO是一般通用的目标检测器，可以同时检测不同的目标。

在这里插入图片描述

Deep MultiBox：不像R-CNN，Szegedy et al. 训练卷积网络生成候选框，用于代替Selective Search. 将MultiBox替换的置信度预测替换为单类预测，可以进行单目标检测。但是，MultiBox不能进行一般通用目标检测，它仍是独立的检测模块。YOLO和MultiBox都使用卷积网络预测边缘框。

在这里插入图片描述

OverFeat：Sermanet et al. 训练一个卷积进行定位，并调整定位器用于目标检测。OverFeat有效的进行滑动窗口检测，但是整个系统仍是独立的。OverFeat优化定位算法，不是检测算法。与DPM一样，定位器在预测时只能看到局部的信息。OverFeat不能获取全局的上下文信息，因此非常依赖后处理。

在这里插入图片描述

MultiGrasp：我们的工作在设计上与Redmon et al 的 graps detection（regression grasps）相似。但是，与目标检测系统相比，grasp detection是非常简单的任务。MultiGrasp 仅仅需要预测图像中包含单个目标的单个 graspable 区域。不需要估计目标的大小，位置，或者目标的边界，以及分类，仅仅找到合适的区域即可。YOLO预测一张图像中的多个目标的边框和分类概率，更加复杂的任务。

4. Experiments

在这里插入图片描述

首先，我们将YOLO与其它实时的目标检测系统比较，均在PASCAL VOC 2007上训练。为了理解YOLO与R-CNN的变体之间的不同，我们比较了YOLO和最好的 Fast R-CNN误差上的差别。基于不同的误差统计方法，显示出YOLO可以降低假正样本。我们仍呈现VOC2012的结果，并且与当前顶级的方法进行mAP对比。最后，我们显示YOLO对于新的领域（artwork datasets）更加具有泛化性。

4.1. Comparison to Other Real-Time Systems

在这里插入图片描述

很多研究都致力于增加目标检测系统的整体速度。但是，只有 Sadeghi勉强达到30FPS/s. 我们对比了YOLO与DPM的其它GPU版本的应用（速度要么30Hz或者100Hz）。而其它的工作都没有达到这个里程碑。为了对比速度和精度的权衡，我们仍然对比了相关的mAP和运行速度。

在这里插入图片描述
Fast YOLO是当前VOC上最快的目标检测方法。据我所知，这是现存最快的检测器。在52.7%的mAP下，是其它实时目标检测系统精度的2倍。YOLO将mAP提高到63.4%，并且仍达到实时。

我们用VGG-16训练了YOLO，精度更高，但是速度更慢。与其它基于VGG-16的目标检测做对比非常有用，但是没有达到实时，所以其它的研究更加关注我们快速的模型。

在没有损失精度的情况下，Fast DPM有效的提升了速度，但是没有达到实时。与基于神经网络的检测系统相比，其精度还是太低。

在这里插入图片描述

将R-CNN中的R方法用静态的包围盒候选替代。比R-CNN快了很多，但是由于没有好的候选框，精度降了很多。Fast R-CNN增加了R-CNN分类阶段的速度，但是仍要使用 Selective Search的方法，使得每张图像需要2秒生成候选框。这样可以达到很高的mAP，但是速度为0.5fps。最近的Faster-RCNN 用神经网络的方法代替了 Selective Search方法，与 Szegedy的方法相似。在我们的测试中，他们最准确的模型速度为7fps，而精度更低的模型速度为18fps。而VGG-16版本的Faster R-CNN mAP高10个百分点，但是速度低了6倍。Faster R-CNN仅仅比YOLO慢了2.5倍，但是精度更低。

4.2. VOC 2007 Error Analysis

在这里插入图片描述

为了进一步测试YOLO与其它顶级目标检测系统的差别，我们在VOC2007上进行详细的测试。我们与Fast R-CNN相比，Fast R-CNN是PASCAL上比较好的目标检测系统，而且检测结果公开发布了。

在这里插入图片描述

我们使用Hoiem的方法和工具。对于每一个测试类，那么我们关注前N个预测结果。每一个预测要么是正确的，要么基于下面的误差进行分类：

Correct：正确的类，IOU>0.5
Localization：正确的类， $0.1 < I O U < 0.5$
Similar：类相似，IOU>0.1
Other：类时错误的，IOU > 0.1
Background：IOU < 0.1 for any object

在这里插入图片描述
图4分析了每一个错误类型下的20类平均值。可以看出，YOLO在Correct类型下的精度更低。Localization：YOLO的定位精度更低，Fast R-CNN的定位精度更高，但是有更多的错误背景（将背景分为有目标），是YOLO的三倍。

在这里插入图片描述

4.3. Combining Fast R-CNN and YOLO

在这里插入图片描述

与 Fast R-CNN相比，YOLO具有更低的背景误差。借助YOLO去除Fast R-CNN 中的检测的背景，我们得到更高的检测表现。对于每一个Fast R-CNN预测的边框，我们看看YOLO是否也预测了相似的边框。如果边框相似，那么对预测结果进行加强（基于YOLO预测的概率以及两个边框的重叠度）。

在VOC 2007 测试数据上，最好的 Fast R-CNN模型mAP为71.8%. 当与YOLO结合的情况下，mAP达到75%. 我们同样将最好的 Fast R-CNN与其它版本的 Fast R-CNN模型对比，这些组合产生较小的提升，大概在 0.3% 到 0.6%之间，参考表2，如下所示：

在这里插入图片描述

YOLO与Fast R-CNN的组合并不是简单的模型组合。相反，之所以能够提升较高的精度，是因为YOLO与Fast R-CNN在测试过程中，产生的错误刚好可以互补。不幸的是，这种组合并没有带来速度上的优势。由于YOLO很快，并没有给 Fast R-CNN带来更多的计算时间。

4.4. VOC 2012 Results

在这里插入图片描述

在 VOC 2012测试集上，YOLO的mAP值为57.9%，低于目前的顶级目标检测模型，与使用VGG-16的R-CNN模型相近，见表3。我们的系统对小目标检测较差。比如，瓶子，羊群以及显示器，平均mAP低于R-CNN8-10%. 但是，在其它分类上，比如车和火车，YOLO的准确度更高。我们与Fast R-CNN的联合模型是表现最好的。

在这里插入图片描述

4.5. Generalizability: Person Detection in Artwork

在这里插入图片描述

用于目标检测系统训练的经典数据集往往在训练集和测试集上具有相同的分布。但是，实际应用情况下，测试数据往往与训练的数据存在分布差异，导致模型的精度很低，甚至失效。我们将YOLO与其它目标检测系统在Picasso数据集合People-Art数据集进行对比，这两个数据集用于人的检测。

在这里插入图片描述

图5给出了不同目标检测系统的效果。我们仅仅对比在VOC2007上的人类检测结果，模型均在VOC2007上训练。Picasso的模型在VOC2012上训练，People-Art在VOC2010上训练。R-CNN在VOC2007具有mAP值。但是，R-CNN在artwork上的测试效果非常差。R-CNN是在候选框上进行训练，所以看到的都是小的区域。自然无法很好的应用在新的artwork上。

在这里插入图片描述

DPM在artwork上的效果没有降低太多，原因在于：它具有较强的空间形状模型，以及目标的轮廓。尽管DPM没有像R-CNN那样降低太多，但是它的AP值本来就低。YOLO在VOC2007上表现较好，而且它的AP值没有像其它方法那样降低太多。与DPM一样，YOLO对目标的大小和形状，以及目标直接的关系进行建模。Artwork与自然图像在像素的层次上很不相同，但是目标的大小和形状具有相似性，这样YOLO得到好的边框和检查结果。

5. Real-Time Detection In The Wild

在这里插入图片描述

YOLO速度很快，精度比较高的目标检测器，使得它非常适合计算机视觉的应用。我们将YOLO连接到网络摄像头，验证是否达到实时，包括从摄像头获取图像和显示检测结果。结果是可以交互的，而且具有很大的应用价值。YOLO在网络摄像头上是实时的处理单个图像，更像是个目标追踪系统，尽管目标会发生位置变动和形貌变化。

6. Conclusion

在这里插入图片描述

我们引入一个统一的目标检测模型，YOLO。我们的模型易于搭建，并且可以再原图上直接训练。不像基于分类器的方法，YOLO的损失函数直接针对目标检测进行训练，并且整个模型是完整的。快速的YOLO是为了更快的速度，并且YOLO将目标检测的实时性方面推向了顶级水平。YOLO并且具有更好的泛化能力，检测更加鲁棒。

X_Imagine

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
深度学习论文翻译 -- YOLO-V1

本文翻译为目标检测论文系列：yolo-v1，You Only Look Once: Unified, Real-Time Object Detection论文链接：https://arxiv.org/pdf/1506.02640.pdf开源地址：http://pjreddie.com/yolo/1、Abstract本文提出目标检测（object detection）的新方法，YOLO。之前的方法，重新修改分类器来进行目标检测。相反的，我们将目标检测当作回归类问题（regression proble
复制链接

扫一扫