【YOLOv2全文翻译】YOLO9000:Better, Faster, Stronger

原文链接:https://openaccess.thecvf.com/content_cvpr_2017/papers/Redmon_YOLO9000_Better_Faster_CVPR_2017_paper.pdf

摘要

        我们提出了YOLO9000,一个最先进的实时目标检测系统,可以检测超过9000个目标类别。首先,我们提出了对YOLO检测方法的各种改进,这些改进都是新的来自先前的工作。改进后的模型YOLOv2在标准检测任务上是最先进的,如PASCAL VOC和COCO。使用一种新的、多尺度的训练方法,同一个YOLOv2模型可以在不同的尺寸下运行,在速度和准确性之间提供了一个简单的权衡。在67 FPS时,YOLOv2在VOC 2007上得到76.8mAP。在40 FPS时,YOLOv2得到78.6 mAP,超过了最先进的方法,如使用ResNet的Faster R-CNN和SSD,同时运行速度仍然很。最后,我们提出了一种联合训练目标检测和分类的方法。使用这种方法,我们在COCO检测数据集和ImageNet分类数据集上同时训练YOLO9000。我们的联合训练使YOLO9000能够预测没有标记检测数据的目标类别的检测情况。我们在ImageNet检测任务上验证了我们的方法。尽管只有200个类中的44个有检测数据,YOLO9000在ImageNet检测验证集上得到了19.7的mAP。在COCO上没有的的156个类中,YOLO9000得到了16.0 mAP。YOLO9000能预测9000多个不同目标类别的检测而且是实时运行的。

Introduction

        通用的目标物体检测应该是快速、准确的,并且能够识别各种各样的目标。自从引入神经网络以来,检测框架已经变得越来越快和准确。然而,大多数检测方法仍然局限于少量的目标数据集上。

        与分类和标记等其他任务的数据集相比,当前的目标检测数据集是有限的。最常见的检测数据集包含几千到几十万张图像,有几十到几百个标签。分类数据集有几百万张图像,有万或十万个类别。

        我们希望检测规模扩展到目标分类的水平。然而,为检测而给图像贴标签比为分类或标记贴标签要昂贵得多(标签通常是给用户免费提供的)。因此,我们不太可能在不久的将来看到与分类数据集相同规模的检测数据集。

        我们提出了一种新的方法来利用我们已经拥有的大量分类数据,并利用它来扩大当前检测系统的范围。我们的方法使用目标分类的分层观点,使我们能够将不同的数据集结合在一起。

        我们还提出了一种联合训练算法,使我们能够在检测和分类数据上训练目标检测器。我们的方法利用标记的检测图像来学习精确定位目标,同时使用分类图像来增加其词汇量和鲁棒性。

        使用这种方法,我们训练了YOLO9000,一个实时的目标检测器,可以检测超过9000个不同的物体类别。首先,我们在基础YOLO检测系统上进行改进产生YOLOv2,一个最先进的实时检测器。然后,我们使用我们的数据集组合方法和联合训练算法,在ImageNet的9000多个类别以及COCO的检测数据上训练一个模型。

Better

        相比于最先进的检测系统,YOLO存在着各种缺陷。与Fast R-CNN相比,对YOLO的错误分析表明,YOLO产生了大量的定位错误。此外,与基于区域候选的方法相比,YOLO的召回率相对较低。因此,我们主要关注的是在保持分类精度的同时,提高召回率和定位准确度。

        计算机视觉通常趋向于更大、更深的网络。更好的性能往往取决于训练更大的网络或将多个模型集在一起。然而,在YOLOv2中,我们希望有一个更准确的检测器,并且仍然是快速的。我们没有扩大我们的网络,而是简化了网络,然后让表征更容易学习。我们将过去工作中的各种想法与我们自己的新概念结合起来,以提高YOLO的性能。在表2中可以看到结果的汇总

        Batch Normalization. 批量归一化导致收敛性的显著改善,同时消除了其他形式正则化的需要。通过在YOLO的所有卷积层上添加批量归一化,我们在mAP上得到了超过2%的提升。批量归一化也有助于模型正则化。有了批归一化,我们可以在不过拟合的情况下去除模型中的dropout。

        High Resolution Classifier. 所有最先进的检测方法都使用在ImageNet上预训练的分类器。从AlexNet开始,大多数分类器在小于256×256的输入图像上运行。最初的YOLO在224×224的情况下训练分类器网络,并将分辨率提高到448以进行检测训练。这意味着网络在切换到学习目标检测时还必须调整到新的输入分辨率。

        对于YOLOv2,我们首先在ImageNet上以448×448的分辨率对分类网络进行微调,并进行10个epoch。这让网络有时间调整其滤波器,以便在更高的分辨率输入下更好地工作。然后,我们再对检测的结果网络进行微调。这个高分辨率的分类网络使我们的mAP增加了近4%。

        Convolutional With Anchor Boxes. YOLO直接使用卷积特征提取器顶部的全连接层来预测边界框的坐标。Faster R-CNN不直接预测坐标,而是使用手挑选的先验来预测边界框。Faster R-CNN中的区域生成网络(RPN)只使用卷积层来预测锚框的偏移量和置信度。由于预测层是卷积,RPN预测了特征图中每个位置的偏移量。预测偏移量而不是坐标简化问题,使网络更容易学习。

        我们从YOLO中移除全连接层,并使用锚框来预测边界框。首先,我们除了一个池化层,使网络卷积层的输出具有更高的分辨率。我们还缩小了网络,使其在分辨率为416×416的输入图像上运行,而不是448×448。我们这样做是因为我们希望在我们的特征图中有奇数个位置,以便只有一个中心单元。目标,尤其是大型目标,往往会占据图像的中心位置,所以在中心有一个单独的位置而不是在中心附近的四个位置来预测这些目标是很好的。YOLO的卷积层对图像进行了32倍的下采样,所以通过使用416的输入图像,我们得到了一个13×13的输出特征图。

        引入锚框后,我们将类别预测机制与空间位置分开处理,单独预测每个锚框的类和置信度。和原来的YOLO一样,置信度预测仍然预测真实框先验框的IOU,而类别预测则预测在有目标存在情况下,该类别的条件概率。

        使用锚框,我们得到的准确率会有小幅下降。YOLO每张图片只预测了98个框,但使用锚框后,我们的模型预测了超过一千个框。在没有锚框的情况下,我们的中模型获得69.5 mAP,召回率为81%。有了锚框之后,我们的模型mAP为69.2,召回率为88%。即使mAP下降了,召回率的增加意味着我们的模型有更大的改进空间。

        Dimension Clusters. 当锚框与YOLO结合使用时,我们遇到了两个问题。第一个问题是,框的尺寸是手工挑选的。网络可以学习适当地调整框,但是如果我们为网络挑选更好的先验锚框来开始,我们可以使网络更容易学习预测好的检测结果。

        我们在训练集的边界框上运行k-means聚类,以自动找到好的先验,而不是手工选择先验。如果我们使用标准的欧氏距离k-means,大的框比小的框产生更多的误差。然而,我们真正想要的是能获得好的IOU分数的先验锚框,这与框的大小无关。因此,对于距离指标,我们使用:d( box , centroid )=1−IOU( box , centroid )​。

        我们对不同的k值运行k-means,并绘制出最接近中心点的平均IOU,见图2。我们选择k = 5作为模型复杂性和高召回率之间的良好权衡。聚类中心点与手工挑选的锚框有明显不同。短而宽的框较少,高而的框较多。

        我们在表1中比较了我们的聚类策略和手工挑选的锚框的最接近的先验平均IOU。在只有5个先验的情况下,质心的表现与9个锚框相似,平均IOU分别为61.0,60.9。如果我们使用9个质心,我们会看到一个高得多的平均IOU。这表明,使用k-means来生成我们的边界框,使模型开始有一个更好的表示,并使任务更容易学习。

        Direct location prediction. YOLO使用锚框时,我们遇到了第二个问题:模型的不稳定性,特别是在早期迭代中。大部分的不稳定性来自于对框的(x,y)位置的预测。在区域候选网络中,网络预测tx和ty,(x,y)中心坐标的计算方法是:

        例如,tx=1的预测会将框向右移动,移动的宽度为锚框的宽度,tx=-1的预测会将框向左移动相同的长度。

        这个公式是不受限制的,所以任何锚框都可以在图像中的任何一点结束,而不管这个框是在哪个位置预测的。在随机初始化的情况下,模型需要很长时间才能稳定地预测出合理的偏移量。

        我们不预测偏移量,而是遵循YOLO的方法,预测相对于网格单元位置的坐标。这使得真实值的限制在0到1之间。我们使用逻辑激活来约束网络的预测,使其落在0~1这个范围内。

        网络在输出特征图中的每个单元预测了5个边界框。该网络为每个边界框预测了5个坐标,即tx、ty、tw、th和to。如果单元格与图像左上角的偏移量为(cx,cy),且先验框的宽度和高度为pw,ph,则预测值对应于:

        由于我们限制了位置预测,参数化更容易学习,使网络更稳定。使用维度聚类以及直接预测边界框中心位置,比起使用锚框的YOLO提高了近5%。

        Fine-Grained Features. 这个改进后的YOLO在13×13的特征图上预测测结果。虽然这对大目标来说是足够的,但它可能会受益于更细粒度的特征来定位较小的物体。Faster R-CNN和SSD都在网络中的各种特征图上运行他们的网络,以获得一系列的分辨率。我们采取了一种不同的方法,简单地增加一个直通层,从早期的层中提取26×26分辨率的特征。

        直通层通过将相邻的特征堆叠到不同的通道而不是空间位置上,将高分辨率的特征与低分辨率的特征连接起来,类似于ResNet中的identity mappings。这样就将26×26×512的特征图变成了13×13×2048的特征图,它可以与原始特征连接起来。我们的检测器在这个扩展的特征图之上运行,这样它就可以获得细粒度的特征。这使性能有了1%的适度提高。

        Multi-Scale Training. 原始的YOLO使用448×448的输入分辨率。添加锚框,我们将分辨率改为416×416。然而,由于我们的模型只使用卷积层和池化层,因此可以动态调整大小。我们希望 YOLOv2 能够在不同大小的图像上运行,因此我们将其训练到模型中。

        我们不需要修改输入图像的大小,而是每隔几个迭代就改变网络。每10个批次,我们的网络就会随机选择一个新的图像尺寸。由于我们的模型下采样32倍,我们从以下32的倍数中抽取尺寸:{320, 352, …, 608}。因此,最小的选是320 × 320,最大的是608 × 608。我们将网络调整到该尺寸并继续训练。

        这种机制迫使网络学会在各种输入尺寸上进行良好的预测。这意味着同一个网络可以预测不同分辨率下的检测结果。网络在较小的尺寸下运行得更快,因此YOLOv2在速度和准确性之间提供了一个简单的权衡。

        在低分辨率下,YOLOv2作为一个简单、相当准确的检测器运行。在288×288时,它以超过90 FPS的速度运行,其mAP几乎与Fast R-CNN一样好。这使它成为较小的GPU、高帧率视频或多个视频流的理想选择。

        在高分辨率下,YOLOv2是一个最先进的检测器,在VOC 2007上的mAP为78.6,同时运行仍高于实时速度。

        Further Experiments. 进一步的实验我们训练YOLOv2对VOC 2012进行检测。表4显示了YOLOv2与其他最先进的检测系统的性能比较。YOLOv2实现了73.4 mAP,同时运行速度远远超过其他方法。我们还COCO数据集上进行了训练,表5。在VOC指标(IOU = 0.5)上,YOLOv2得到44.0 mAP,与SSD和Faster R-CNN相当。

Faster

        我们希望检测是准确的,但我们也希望它是快速的。大多数检测的应用,如机器人或自动驾驶汽车,都依赖于低延迟的预测。为了最大限度地提高性能,我们设计YOLOv2从头开始都是快速的。

        大多数检测框架依靠VGG-16作为基础特征提取器。VGG-16 是一个强大、准确的分类网络,但它过于复杂。VGG-16的卷积层一次需要306.9亿次浮点运算来处理一张224×224分辨率的图像。

        YOLO框架使用一个基于Googlenet架构的定制网络。这个网络比VGG-16更快,一次前向传播只用了85.2亿次运算。然而,它的准确性比VGG16略差。对于224×224的单张图像,前5名的准确率,YOLO 的自定义模型在 ImageNet 上的准确率达到 88.0%,而 VGG-16 的准确率为 90.0%。

        Darknet-19.我们提出一个新的分类模型作为YOLOv2的基础。我们的模型建立在先前的网络设计工作以及该领域的常识之上。与VGG模型类似,我们主要使用3×3的过滤器,并在每个池化步骤后将通道的数量增加一倍。按照网络中的网络(NIN)的工作,我们使用全局平均池来进行预测,以及使用1×1滤波器来压缩3×3卷积之间的特征表示。我们使用批量归一化来稳定训练,加速收敛,并使模型正化。

        我们的最终模型,称为Darknet-19,有19个卷积层和5个maxpooling层。完整的描述见表6。Darknet-19只需要55.8亿次操作来处理一幅图像,却在ImageNet上达到了72.9%的最高准确率和91.2%的top-5准确率。

        Training for classification. 我们使用随机梯度下降法在标准的ImageNet 1000类分类数据集上训练网络160次,使用Darknet神经网络框架,起始学习率为0.1,多项式速率衰减为4次方,权重衰减为0.0005,动量为0.9。在训练过程中,我们使用标准的数据增强技巧,包括随机裁剪、旋转、色调、饱和度和曝光变化

        如上所述,在对224×224的图像进行初始训练后,我们在更大的尺寸(448)上对我们的网络进行微调。在这种微调中,我们用上述参数进行训练,但只用了10个epoch,并以10-3的学习率开始。在这个更高的分辨率下,我们的网络达到了76.5%的最高准确率和93.3%的Top-5准确率。

        Training for detection. 我们对这个检测网络进行了修改,去掉了最后一个卷积层,而是增加了三个3×3的卷积层,每个卷积层有1024个过滤器,每个卷积层后面跟着一个最终的 1 × 1 卷积层,其中包含我们检测所需的输出数量。。对于VOC,我们预测5个框的5个坐标,每个框有20个类别,所以有125个过滤器。我们还从最后的3×3×512层向第二个卷积层添加了一个直通层,以便我们的模型可以用细粒度的特征。

        我们以10-3的起始学习率训练网络160个epoch,在60和90个epoch时除以10。我们使用0.0005的权重衰减和0.9的动量。我们使用与YOLO和SSD类似的数据增强,包括随机裁剪、颜色转换等。我们在COCO和VOC上使用同样的训练策略。

Stronger

        我们提出了一种对分类和检测数据进行联合训练的机制。我们的方法使用标记为检测的图像来学习特定的检测信息,如边界框坐标预测和置信度,以及如何对普通目标进行分类。它使用只有类别标签的图像来扩大它可以检测的类别的数量。

        在训练过程中,我们混合了来自检测和分类数据集的图像。当我们的网络看到被标记为检测的图像时,我们可以根据完整的YOLOv2损失函数进行反向传播。当它看到一个分类图像时,我们只从架构的特定分类部分反向传播损失。

        这种方法带来了一些挑战。检测数据集只有常见的物体和一般的标签,如 "狗 "或 “船”。分类数据集有更广泛和更深入的标签范围。ImageNet有一百多个狗的品种,包括 “诺福克梗”、"约克夏梗 "和 “贝灵顿梗”。如果我们想在这两个数据集上进行训练,我们需要一个连贯的方法来合并这些标签。

        大多数分类方法在所有可能的类别中使用softmax层来计算最终的概率分布。使用softmax时,假定这些类别是相互排斥的。这给合并数据集带来了问题,例如,你不会想用这个模型来合并ImageNet和COCO,因为 "诺福克梗 "和 "狗 "这两个类别并不相互排斥。

        我们可以使用一个多标签模型来合并数据集,而这个模型并不假定相互排斥。这种方法忽略了我们所知道的关于数据的所有结构,例如,所有的COCO类都是互斥的。

        Hierarchical classification. ImageNet的标签是从WordNet中提取的,WordNet是一个语言数据库,用于构造概念和它们之间的关系[12]。在WordNet中,"Norfolk terrier "和 "Yorkshire terrier "都是 "terrier "的下位词,而 "terrier "是 "猎狗"的一种,"猎狗"是 "狗"的一种,"狗"是 "犬"的一种等等。大多数分类方法都假定标签有一个平面结构,然而对于结合数据集来说,结构正是我们所需要的。

        WordNet的结构是一个有向图,而不是一棵树,因为语言是复杂的。例如,"狗 "既是 "犬类 "的一种,也是 "家畜 "的一种,它们都是WordNet中的同义词。我们不使用全图结构,而是通过从ImageNet中的概念构建层次树来简化问题。

        为了构建这个树,我们检查了ImageNet中的视觉名词,并查看它们通过词网图到根节点的路径,例如"物理对象"。许多同义词在图中只有一条路径,因此我们首先将所有这些路径添加到我们的树上。然后,我们反复检查剩下的概念,并添加路径,使树的增长尽可能少。因此,如果一个概念有两条通往根的路径,其中一条路径会给我们的树增加三条边,而另一条只增加一条边,我们就选择较短的路径。

        最后的结果是WordTree,一个视觉概念的分层模型。为了用WordTree进行分类,我们在每个节点上预测条件概率,即在给定的同义词,每个下义词的概率。例如,在“terrier节点我们预测

        如果我们想计算一个特定节点的绝对概率,我们只需沿着树的路径到根节点,然后乘以条件概率。

        为了分类的目的,我们假设该图像包含一个物体。Pr(物理对象) = 1。

        为了验证这种方法,我们在使用1000类ImageNet建立的WordTree上训练Darknet-19模型。为了建立WordTree1k,我们加入了所有的中间节点,将标签空间从1000扩大到1369。在训练过程中,我们将真值标签传播到树上,这样如果一幅图像被标记为"诺福克猎犬",它也会被标记为"狗"和"哺乳动物"等。为了计算条件概率,我们的模型预测了一个由1369个值组成的向量,并且我们计算了所有属于同一概念下义词的同义词集上的softmax,见图5。

        使用与之前相同的训练参数,我们的分层式Darknet-19达到了71.9%的top-1准确率和90.4%的top-5准确率。尽管增加了369个额外的概念,并让我们的网络预测树状结构,但我们的准确率只下降了一点。以这种方式进行分类也有一些好处。在新的或未知的对象类别上,性能会优雅地下降。例如,如果网络看到一张狗的照片,但不确定它是什么类型的狗,它仍然会以高置信度预测 “狗”,但在下义词中的置信度会降低。

        这种方法也适用于检测。现在,我们不是假设每张图片都有一个物体,而是使用YOLOv2的置信度预测器来给我们提供Pr(物理物体)的值。检测器会预测出一个边界框和概率树。我们向下遍历这棵树,在每一个分叉处采取最高的置信度路径,直到我们达到某个阈值,我们就可以预测那个物体类别。

        Dataset combination with WordTree. 我们可以使用WordTree以合理的方式将多个数据集组合在一起。我们只需将数据集中的类别映射到树同义词集。图6显示了一个使用WordTree来结合ImageNet和COCO的标签的例子。WordNet是非常多样化的,所以我们可以将这种技术用于大多数数据集。

        Joint classification and detection. 既然我们可以使用WordTree合并数据集,那么我们就可以训练分类和检测的联合模型。我们想训练一个极大规模的检测器,所以我们使用COCO检测数据集和ImageNet完整版本中的前9000个类来创建我们的联合数据集。我们还需要评估我们的方法,所以我们加入了ImageNet检测挑战中尚未包括的任何类别。这个数据集的相应WordTree有9418个类。ImageNet是一个更大的数据集,所以我们通过对COCO的过采样来平衡数据集,使ImageNet只比它大4:1。

        使用这个数据集,我们训练YOLO9000。我们使用基本的YOLOv2架构,但只有3个先验因素,而不是5个,以限制输出大小。当我们的网络看到一个检测图像时,我们正常反向传播损失。对于分类损失,我们只在标签的相应级别或以上反向传播损失。例如,如果标签是“狗”,我们确实会将任何错误分配给树中更下方的预测,“德国牧羊犬”与“金毛猎犬”,因为我们没有该信息。

        当它看到一个分类图像时,我们只反向传播分类损失。要做到这一点,我们只需找到预测该类的最高概率的边界框,并计算其预测树上的损失。我们还假设预测框与地面真实值至少有0.3 IOU的重叠,我们根据这一假设反向传播置信度损失。

        通过这种联合训练,YOLO9000学会了使用COCO中的检测数据来寻找图像中的物体,并学会了使用ImageNet中的数据对这些物体进行分类。

        我们在ImageNet检测任务上评估了YOLO9000。ImageNet的检测任务与COCO共享44个目标类别,这意味着YOLO9000只看到了大多数测试类别的分类数据。YOLO9000 总体获得 19.7 mAP,在不相交的 156 个目标类上获得 16.0 mAP,而这些目标类从未见过任何标记的检测数据。 mAP 高于 DPM 取得的结果,但 YOLO9000 是在仅部分监督的不同数据集上进行训练的。它还同时检测了9000个其他物体类别,而且都是实时的。

        YOLO9000能很好地学习新的动物物种,但在学习服装和设备等类别时却很困难。新的动物更容易学习,因为置信度预测可以很好地从COCO中的动物中概括出来。相反,COCO没有任何类型的衣服的边界框标签,只有人的标签,所以YOLO9000在为 "太阳镜 "或 "游泳裤 "等类别建模时很吃力。

结论

        我们介绍了YOLOv2和YOLO9000,实时检测系统。YOLOv2是最先进的,在各种检测数据集上比其他检测系统快。此外,它可以在各种图像尺寸下运行,在速度和准确性之间提供平稳的权衡。

        YOLO9000是一个实时框架,通过联合优化检测和分类来检测9000多个物体类别。我们使用WordTree来结合各种来源的数据和我们的联合优化技术,在ImageNet和COCO上同时训练。YOLO9000是朝着缩小检测和分类之间的数据集大小差距迈出的有力一步。

        我们的许多技术可以在目标检测之外进行推广。我们对ImageNet的WordTree表示为图像分类提供了一个更丰富、更详细的输出空间。使用分层分类的数据集组合在分类和分割领域将是有用的。像多尺度训练这样的训练技术可以在各种视觉任务中提供好处。

        对于未来的工作,我们希望将类似的技术用于弱监督的图像分割。我们还计划在训练过程中使用更强大的匹配策略为分类数据分配弱标签来提高我们的检测结果。计算机视觉有着得天独厚的大量标记数据。我们将继续寻找方法,将不同来源和结构的数据结合起来,为视觉世界建立更强大的模型。

  • 20
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值