YOLOV1

最新推荐文章于 2024-03-17 18:16:21 发布

帅殿天下

最新推荐文章于 2024-03-17 18:16:21 发布

阅读量292

点赞数

分类专栏： YOLO 深度学习文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/shuai_yue/article/details/118367702

版权

深度学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

YOLO

2 篇文章 0 订阅

订阅专栏

YOLOv1

介绍

人们只需瞥一眼图片就知道图片中有什么物体，物体的位置及它们之间的联系。人类的视觉系统是快速而准确的，使我们可以做很复杂的事，比如开车时不用刻意去思考。快速，准确的物体检测算法将允许计算机在没有专用传感器的情况下驾驶汽车，使辅助设备能够向人类用户传达实时场景信息，并释放通用，响应式机器人系统的潜力。

yolo的几个优势

第一,YOLO速度非常快,我们可以把检测看做是一个分类和回归的问题,不需要复杂的流程,在测试过程中,我们只需要将一个新的图片,输入到网络中来检测物体,yolov1的基本网络检测速度可以实现到,每秒可以实现45帧,快速的版本可以实现155帧每秒,那么就意味着,可以实现小于25毫秒的延迟处理流媒体视频
第二,YOLO在预测的过程中,可以看到整体的图像,可以整体的检测图像,与基本滑动窗口和候选区域的方法不同,在训练和测试期间YOLO可以看到整个图像，所以它隐式的编码相关类的上下文信息及外观。Fast R-CNN是一种顶级的检测方法，由于它无法看到更大的上下文信息所以会从背景中检测出错误的物体，YOLO出现背景误差的概率是Fast R-CNN的一半。
第三，YOLO学习图像的抽象特征。当在自然图像上进行训练，并在艺术品上测试时，YOLO的效果大幅优于DPM和R-CNN等顶级检测方法。由于YOLO是高度抽象化的，所以在应用到新的领域或者有意外输入时不太会出现故障。

统一检测

我们将物体检测的单独组件集成到一个神经网络中,我们的网络使用整个图像的特征来预测每个边界框,网络同时预测所有类的边界框,这也意味着我们的网络全面的预测整个图像和图像中的所有的类,YOLO网络的设计保证能够实现端到端的训练和实施检测的速度,同时实现较高的检测平均精度.

系统介绍

1.系统将输入图像划分成SxS的网格,如果一个物体的中心点在某个网格中,那么这个网格就负责检测这个物体,每个网格单元预测B个边界框,以及每个边界框的confidence(置信度),这些confidence反映了网络模型对该边界框的是否含有物体的信心,以及边界框位置的预测的精准度,在形式上,confidence定义为C= Pr(Object) * IOU truth pred (Pr网格存在物体为1,不存在为0),如果网格中包含物体,那么confidence等于预测边界框和真实边界框的IOU(交并比)
2,每个边界框有5个预测值,x,y,w,h,confidence;(x,y)代表预测边界框的中心点坐标,w,h是边界框的宽度和高度,confidence,是预测边界框和真实边界框的IOU,
3.每个网格预测C个条件类别概率， Pr(Class i |Object)，这是网格中含有物体的条件下属于某个类别的概率，每个网格只预测一组条件类别概率，B个边界框公用。
测试时我们将条件类概率和confidence相乘，为我们提供了每个边界框在各个类别的得分值，这些得分值代表该类别物体出现在框中的概率和边界框与物体的拟合程度。
在这里插入图片描述
图片2：网络模型。我们的模型将检测当做一个回归问题，网络将输入图像划分成 S ×S个网格，每个网格预测B个边界框，B个confidence，一个C位的条件类别概率。
在PASCAL VOC数据集上评估YOLO，S = 7，B = 2，C = 20（因为PASCAL VOC数据集中有20个标记类），我们的最终预测结果是7 × 7 × 30张量。

设计

在这里插入图片描述

图片3：网络架构。我们的检测网络包含24个卷积层和2个全连接层，交替使用的1×1卷积层降低前一层的特征空间。我们使用一半（224×224输入图像）的输入在ImageNet图像分类任务中预训练卷积层，然后在检测时将输入加倍。

为了加快检测我们还训练了一个快速的YOLO版本。Fast YOLO 使用较少的卷积层，9层而不是普通版的24层，和更小的卷积核。除了网络较小，Fast YOLO和YOLO训练和测试参数是一样的。我们的网络最终输出是7 × 7 × 30的预测张量。

训练

我们在ImageNet 1000类数据集上预训练我们的卷积层。预训练时我们使用图3中的前20层、一个平均池化层、一个全连接层。我们训练这个网络一周时间，在ImageNet 2012数据集中获得了88%准确率，排名位于前5名，与 Caffe上训练的模型中的GoogLeNet模型相当。我们使用 Darknet框架进行所有的训练和预测。

然后我们转化网络执行检测。Ren等人提出在预训练模型中加入卷积层和全连接层可以提高性能[29]。根据他们的想法，我们添加了随机初始化参数的4个卷积层和2个全连接层。检测任务需要细粒度的视觉信息，所以我们将网络输入的分辨率从224×224增加到448×448。

我们在最后一层输出类别概率和边界框坐标。我们通过图像的宽度和高度来标准化边界框的宽度和高度至0到1之间，我们将边界框x和y坐标参数化为相对特定网格的偏移量，使其值处于0到1之间。我们对最后一层使用线性激活函数，其他层使用以下激活函数。

在这里插入图片描述
**我们使用平方和误差来优化模型。**使用平方和误差较容易优化，但是不能完全符合我们最大化平均精度的目标。它将定位误差和分类误差同等对待是不太合理的，而且在图像中有很多网格不包含任何物体，将这些网格的置信度趋向于零时的梯度将会超过含有物体的网格的梯度，这会导致网络不稳定，从而使网络在训练初期就出现梯度爆炸。

为了弥补这一点，我们增加了边界框坐标预测损失的权重，并减少了不包含物体的边界框的置信度预测损失的权重。我们使用两个参数λcoord和λnoobj来完成这个。我们设置λcoord = 5和λnoobj =0 .5。

平方和误差计算损失时将大框和小框同等对待，同样的一个损失值对大框的影响小于对小框的影响。为了解决这个问题，我们计算损失时先对框的宽度和高度求根号再计算平方和。

YOLO为每个网格预测多个边界框。在训练时我们希望每个物体只有一个边界框负责检测这个物体。我们选择和真实物体位置IOU最大的边界框作为负责检测这个物体的边界框。这使得我们的边界框预测变量都负责预测特定物体。所以每个预测变量可以更好地预测边界框尺寸，纵横比或物体类别，从而改善整体召回率。

训练期间我们优化下图中的损失函数：
在这里插入图片描述

其中的代表的是第i个网格中是否含有物体，以及第i个网格中的第j个边界框负责预测这个物体。

请注意，如果网格中含有物体，损失函数只需考虑分类损失（因此条件类概率在前面讲）。如果这个预测器负责预测真实边界框（和网格中的所有预测器都有最高的IOU），损失函数只考虑预测坐标损失。

我们在PASCAL VOC 2007和2012的训练和验证数据集上对网络进行了大约135个epochs的训练。当在VOC 2012上测试的时候，我们也包含了VOC 2007的测试数据用来训练。训练中我们的batch size为64，momentum为0.9，decay为0.0005。

我们的learning rate（学习率）计划如下：在第一个epoch中我们将learning rate慢慢的从0.001提高到0.01，如果我们从较高的学习率开始训练，由于不稳定的梯度会导致网络发散。我们以0.01训练75个epoch，再以0.001训练30个epoch，以0.0001训练30个epoch。

**为了避免过拟合我们使用了dropout （神经元随机失效）层和数据增强的办法。**在第一个连接层之后，速率为0.5的dropout层防止了层之间的联合性（dropout强迫一个神经单元，和随机挑选出来的其他神经单元共同工作，达到好的效果。消除减弱了神经元节点间的联合适应性，增强了泛化能力。）[18]。对于数据增强，我们引入达到原始图像大小20%的随机缩放和平移。我们还在HSV色彩空间中随机调整图像的曝光和饱和度达1.5倍。

前向传播

和训练时一样，在检测测试图像时只需网络执行一次预测。在PASCAL VOC上为每个图像预测98个边界框，每个边界框预测一个置信度得分。不像基于分类器的检测方法，YOLO因为只需运行一个网络，所以执行速度很快。

网格的设计在边界框预测中强制实现空间多样性。通常我们很清楚物体落入哪个网格中，并且模型为每个物体只预测一个边界框。但是，一些比较大的物体或者是在跨越多个网格边界的物体，可以被多个网格都很好的检测出来（即一个物体被多次检测出来造成多重检测问题）。可以使用NMS（非极大值抑制）来解决这种多重检测的问题。虽然NMS对YOLO性能的影响不像对R-CNN、DPM性能影响那么大，但也能提升2-3%的mAP值。

YOLO的局限性

YOLO对边界框预测施加了强烈的空间约束，因为每个网格单元只预测两个框，并且只能有一个类。这种空间约束限制了模型能预测网格附近物体的数量。我们的模型在图像中出现的成群的小物体（比如鸟群）时将会出现物体间的竞争。

由于我们的模型从数据中学习如何预测边界框，因此它遇到新的数据或数据不寻常的高宽比或配置时将较难适应。因为我们的模型在输入图像中有多个下采样层，所以我们的模型是使用相对粗糙的特征来预测边界框。最后，我们在训练一个损失函数不断提高检测性能时，我们将小边框和大边框的损失同等对待。一个较小损失值对较大的边界框来说影响较小，但是对较小的边界框则意味着会极大地影响IOU。我们的误差主要来自检测定位误差。

与其他检测系统对比

物体检测是计算机视觉领域的核心问题。检测流程通常是从输入图像中提取一组特征开始的(Haar [25], SIFT [23],HOG [4], convolutional features [6]) 。然后分类器[36, 21, 13, 10] 或定位器 [1, 32] 在特征空间中识别物体。这些分类器或定位器在整个图像上或在图像中某些区域子集上以滑动窗口方式运行[35,15,39]。我们将YOLO检测系统与几个顶级检测框架进行了比较，突出了主要的相似点和不同点。

Deformable Parts Model DPM 使用sliding window（滑动窗口）方法执行物体检测[10]。DPM使用不相交的管道来提取静态特征，对区域分类，预测高分边界框等。我们的系统用单个卷积神经网络取代了以上各个部分。网络是同时执行特征提取，边界框预测，非最大抑制和上下文推理这些操作。我们的网络不是静态的，而是在线训练和优化的。我们的网络是统一架构的，比DPM速度更快更准确。

R-CNN R-CNN是使用region proposals（候选区域）的方式而不是滑动窗口的方式。Selective Search（选择性搜索）[35]生成候选的边界框，一个卷积网络提取特征，一个SVM给边界框评分，线性模型调整边界框，NMS消除重复检测。需要精确调整复杂的检测管道的每个阶段，这导致训练得到的系统运行缓慢，测试时每张图片耗时超过40s。

YOLO和R-CNN有一些相似之处。每个网格使用卷积特征预测候选框并对其评分。但是我们的系统对网格的预测施加空间限制，这一定程度上减少了重复检测问题。相比R-CNN提出约2000候选框，我们的YOLO提出较少的候选框只有98个。最后，我们整合了这些单独的组件，形成一个单一的同时优化的模型。

其他快速检测系统 Fast 和 Faster R-CNN 专注于通过共享计算和使用网络候选区域取代选择性搜索来提高R-CNN的速度。虽然它们的速度和准确性都比R-CNN有所提高，但两者仍然达不到实时检测的要求。

许多工作集中在提高DPM速度上31 [5]。他们通过级联的方式加快HOG计算，并泛华到GPUs上。但是，DPM的实时速度只有30HZ。YOLO不是试图优化复杂的检测管道中的单个组件，而是完全抛出管道，并且设计的运行速度很快。单一类别的检测器比如人脸检测或者人员检测可以得到很好的优化，因为这些任务处理的特征变化较少。YOLO是一种通用的检测器，可以同时检测多种物体。

Deep MultiBox. 与R-CNN不同，Szegedy等人训练一个卷积网络而不是使用选择性搜索来预测感兴趣的区域。MultiBox还可以通过用单个类别预测替换置信预测来执行单个目标检测。但是MultiBox不能执行通用检测，因为它只是复杂管线中的一部分，还需要进一步的图像分类补丁。YOLO和MultiBox都使用卷积网络来预测图像中的边界框，但YOLO是一个完整的检测系统。

OverFeat Sermanet等人训练卷积神经网络以执行定位并使该定位器适于执行检测[32]。 OverFeat有效地执行滑动窗口检测，但它仍然是一个不相交的系统。OverFeat优化了定位，而不是检测性能。像DPM一样，定位器在进行预测时仅看到本地信息。OverFeat不能推测全局上下文，因此需要大量的后处理来产生相关检测。

MultiGrasp 我们的工作在设计方面类似于Redmon [27] 等人的抓取检测的工作。我们的网格预测边界框的方式是基于MultiGrasp为抓取检测的设计。但是抓取检测比物体检测要简单得多。MultiGrasp只需要从包含一个物体的图像中预测单个可抓取区域即可，它不必估计物体的大小，位置或边界或预测它的类，只需要找到适合抓取的区域。YOLO预测图像中多个类的多个对象的边界框和类概率。

实验

首先我们在PASCAL VOC 2007上对比YOLO和其他实时检测系统。为了理解YOLO和多个R-CNN变体的区别，我们探讨了在VOC 2007上YOLO和Fast R-CNN（R-CNN系列变体中性能最高的版本[14]）的损失。基于不同的错误文件，我们展示了YOLO可以重新调整Fast R-CNN的检测并且减少背景误报的错误，从而显著的提高性能。我们还展示了在VOC 2012上的测试性能，并和当前最先进的方法的mAP对比。最后，我们展示了在两个艺术品数据集上，YOLO比其他检测器更容易迁移到其他领域。

和其他实时系统对比

对象检测的许多研究工作都集中在快速制作标准检测管道上。 5 31 [17]，[28] 。然而，只有Sadeghi等人，创造了一个实时检测系统（每秒30帧或更快）[31]，我们将YOLO与他们在30Hz或100Hz下运行的DPM的GPU实现进行比较。而其他人的努力没有达到实时检测的要求。我们还比较了它们的相对mAP和速度，以检查物体检测系统的准确性和性能之间的权衡。

Fast YOLO是在PASCAL上最快的物体检测方法，而且据我们所知它也是目前最快的物体检测方法。它达到了52.7％的mAP，这比以前的实时检测系统的准确率高出一倍以上。YOLO在保持实时性能的同时将mAP提高到63.4%。

我们也用VGG-16来训练YOLO。这个模型比YOLO准确率更高但是速度降低很多。它与依赖于VGG-16的其他检测系统相比是更有效的，但由于它达不到实时系统速度要求，所以本文的其他部分将重点放在我们的这个更快的模型上。

最快的DPM可以在不牺牲太多mAP的情况下有效加速DPM，但仍然会将实时性能降低2倍[38]。与神经网络方法相比，它还受到DPM检测精度相对较低的限制。
在这里插入图片描述
表1： PASCAL VOC 2007上的实时系统。比较快速检测器的性能和速度。Fast YOLO是PASCAL VOC 上速度最快的检测器，而且检测精度是其他系统的两倍。YOLO比Fast YOLO的mAP高10，而且速度远高于实时系统的速度要求。

R-CNN减去R用静态边界框提议取代选择性搜索[20]。虽然它的速度比R-CNN速度快得多，但是它还还达不到实时的要求，而且因为没有很好的建议框所以精度很受影响。

快速R-CNN加速了R-CNN的分类阶段，但仍然依赖于选择性搜索，每个图像大约需要2秒才能生成建议边界框。所以虽然它的mAP很高，但是速度只有0.5 fps达不到实时速度要求。

目前的Fast R-CNN使用一个神经网络替代选择性搜索来生成建议边界框。比如：Szegedy等人。在我们的测试中，他们最精确的模型速度达到7 fps，而较小的，不太精确的模型以速度达到18 fps。VGG-16版本的Fast R-CNN比YOLO的mAP高10，但是速度比YOLO慢6倍。Zeiler-Fergus Faster R-CNN仅比YOLO慢2.5倍，但是精度还是不及YOLO。

VOC2007误差分析

为了进一步研究YOLO和最先进的检测器之间的差异，我们将详细分析在VOC 2007上的检测结果。我们将YOLO与Fast R-CNN进行比较，因为Fast R-CNN是PASCAL上性能最高的检测器之一，它的检测是公开的。

我们使用Hoiem等人的方法和工具[19]。对于测试时的每个类别，我们查看该类别的前N个预测。每个预测都是正确的，或者根据错误类型进行如下分类：
正确：正确类别并且 IOU>.5

定位：正确类别并且 .5>IOU>.1

相似：相似的类别并且 IOU>.1

其他：类别错误并且IOU>.1

背景：所有类别上IOU<.1
在这里插入图片描述
图片4.错误分析 Fast R-CNN vs. YOLO 这些图表反映了在各个类别的得分最高的前N个预测中定位错误和背景错误的比例。（在该类别中N =＃个目标）

图4显示了所有20个类中平均每种错误类型的细分。YOLO努力的去准确定位物体。YOLO中的定位错误比其他所有类型错误之和还多。Fast R-CNN的定位错误更少但是背景错误更多，它最好的检测结果中有13.6%是假阳（本来不含有物体误报为有物体）。Fast R-CNN对背景的误报错误是YOLO的三倍。

Fast RNN 与YOLO的结合

与Fast R-CNN相比，YOLO的背景误报错误要少得多。通过使用YOLO减小Fast R-CNN的背景误报错误，我们可以显着提升性能。对于R-CNN预测的每个边界框，我们检查YOLO是否预测了一个类似的框。如果确实如此，我们会根据YOLO预测的概率和两个框之间的重叠来提高该预测得分。

最好的Fast R-CNN模型在VOC 2007测试集上获得了71.8%的mAP。当与YOLO结合使用时，其mAP增加了3.2％达到75.0％。我们还尝试将最好的Fast R-CNN模型与其他几个版本的Fast R-CNN相结合。这些结合使mAP小幅增加0.3%和0.6％之间，详见表2。
在这里插入图片描述
　表2：VOC 2007的模型组合实验。我们研究了将各种模型与最佳版本的Fast R-CNN相结合的效果。其他模型和Fast R-CNN结合仅带来了较小的性能提升，而和YOLO结合则带来显著的性能提升。

YOLO带来的性能提升不是模型集成的结果，因为集成不同版本的Fast R-CNN几乎没有什么性能提升。相反，正是因为YOLO在测试中犯了各种各样的错误，导致它能很有效地提升Fast R-CNN的性能。不幸的是因为我们是分别训练各个模型然后结合结果，所以系统没有从YOLO的快速性上受益，速度没有什么提高。但是，因为YOLO速度很快，所以相对单独的Fast R-CNN，结合YOLO之后不会增加多少计算时间。
在这里插入图片描述
表3：PASCAL VOC 2012排行榜。截至2015年11月6日，YOLO与完整comp4（允许外部数据）公共排行榜相比。针对各种检测方法显示了平均精度和每个类平均精度。YOLO是唯一的实时检测器。快速R-CNN + YOLO得分第四高的方法，比快速R-CNN提高2.3％。

VOC2012结果

在VOC 2012测试集中，YOLO的mAP分数为57.9％。这低于现有技术水平，更接近使用VGG-16的原始R-CNN，参见表3。与最接近的竞争对手相比，我们的系统在小物体检测时有物体间竞争。在瓶子，羊，电视/监视器等类别上，YOLO得分比R-CNN或Feature Edit低8-10％。然而，在其他类别如猫和火车上，YOLO实现了更高的性能。我们的Fast R-CNN + YOLO组合模型是性能最高的检测方法之一。 Fast R-CNN从与YOLO的组合中获得了2.3％的提升，使其在公共排行榜上提升了5位。

16.4.5抽象性艺术作品中的任务检测

用于对象检测的学术数据集是从同一分布中提取训练和测试数据。在实际应用中，很难预测所有可能的用例，测试数据可能与系统之前的情况不同[3]。我们将YOLO与其他检测系统在毕加索数据集[12]和人物艺术数据集[3]上进行了比较，这两个数据集是用来测试艺术品中的人员检测。
在这里插入图片描述
图5：Picasso和People-Art数据集上的结果。

图5展示了YOLO和其他系统的性能比较。作为参考，我们提供了只在VOC2007上训练的模型的人员检测AP。 Picasso模型在VOC 2012上训练，而People-Art 在VOC2010上训练。

R-CNN在VOC 2007上有较高的AP，但是在艺术品领域性能就急剧下降。R-CNN使用选择性搜索来调整自然图像的建议边界框。 R-CNN中的分类器步骤只能看到小区域，所以需要很好的建议边界框。

DPM在应用于艺术品时可以很好的保持它的AP。之前的工作认为DPM表现良好是因为它具有物体的形状和布局的空间模型。虽然DPM不会像R-CNN那样退化，但是它的起始AP比较低。

16.5、实地场景的实时检测

YOLO是一款快速而准确的检测器，非常适合应用在计算机视觉领域。我们将YOLO连接到网络摄像头，并验证它是否保持实时性能，计算时间时包括从摄像头获取图像并显示检测结果的时间。由此生成的系统是交互式的。虽然YOLO可以单独处理图像，但是当它和网络摄像头连接起来时就像一个追踪系统，在物体运动或者变化的时候实时检测系统。系统演示和源代码可以在我们的项目网站上找到：http：//pjreddie.com/yolo/。
在这里插入图片描述
图片6：YOLO在检测线上的艺术品图片和自然图片的表现。虽然它将一个人识别成飞机但是准确性还是很高的

16.6、结论

我们介绍了一款一体化（端到端）的物体检测系统YOLO。我们的模型结构很简单，可以在整个图像上进行训练。与基于分类器的方法不同，YOLO针对与检测性能直接相关的损失函数来训练，而且整个模型是联合训练的。

Fast YOLO是目前文献中最快的通用物体检测系统，YOLO引领目前最先进的实时物体检测技术。YOLO还可以很好的迁移到新的领域，这使它成为需要快速高效的物体检测系统的应用的理想选择。

YOLO总结

YOLO是最早出现的单阶段目标检测方法，也是第一个实现了实时目标检测的方法。YOLO能达到45帧每秒的检测速度。此外，YOLO的mAP达到了其他实时检测系统的2倍甚至更高。YOLO让人们对基于深度学习的目标检测方法的检测速度有了新的认识。

YOLO v1

YOLO v1将检测视为回归问题，因此处理图像的流程非常简单、直接。输入图像的尺寸首先被调整为448像素×448像素，然后在图像上运行卷积网络，最后由全连接层进行检测。

与基于滑动窗口和区域建议的方法不同，YOLO在训练和测试时能够看到整个图像，因此其在进行预测时会对图像进行全面的推理。基于区域建议的Fast R-CNN方法就因为看不到更多的上下文信息而在图像中将背景误检为目标，（与之相比，YOLO的背景误检数少了一半）。YOLO不仅能够使用整个图像的特征来预测每个边界框，还可以同时预测一个图像中所有类别的所有边界框。

YOLO将输入图像分成S×S的网格。如果一个目标的中心点落入一个网格单元，则该目标由该网格单元负责检测。每个网格单元预测n个边界框及这些边界框的置信度分数。这些置信度分数反映了YOLO对边界框中是否包含目标的信心，以及其预测的边界框的准确程度。如果该单元格中不存在目标，则置信度分数为0；否则，置信度分数应等于预测框与真实值的IoU。在形式上，置信度被定义为Pr（Object）×IoU（这里的IoU为预测边界框与真值边界框的IoU）。当该边界框为背景（即不包含目标）时，Pr（Object）=0；当该边界框中包含目标时，Pr（Object）=1。

每个边界框包含5个预测值，分别是x、y、w、h和置信度。x和y分别表示边界框的中心相对于网格单元边界的距离。宽度w和高度h是相对于整个图像预测出来的。

每个网格单元还预测了C个条件类别概率Pr（Class i|Object）。这些概率以网格单元包含目标为条件，每个网格单元只预测一组类别的概率，而不管边界框的数量B是多少。

在测试时，将条件概率和单个预测框的置信度相乘，得到每个框的特定类别的置信度分数。这些分数量化表示了该类别出现在框中的概率，以及预测框拟合目标的程度。
在这里插入图片描述
YOLO的回归检测过程，如图5.11所示。YOLO将图像分成S×S的网格，每个网格单元预测B个边界框和C个类别的概率。这些预测结果被编码为S×S×（B×5+C）的张量。为了在Pascal VOC数据集上评估 YOLO，我们使S=7，B=2。因为Pascal VOC数据集中有20个标注类，所以C=20。于是，最终的预测结果是7×7×30维的张量。
YOLO并没有像SSD和Faster R-CNN那样，选择VGGNet或者其他经典的CNN模型作为基础网络。YOLO使用基于GoogLeNet架构的自定义网络DarkNet作为基础网络。DarkNet比VGG16的运行速度快，这也使YOLO的运行速度得到了提升。

YOLO的局限也非常明显。与两阶段目标检测系统相比，YOLO产生了更多的定位误差且在精度上落后（对小目标的检测效果尤其差）。同时，YOLO对边界框预测施加了空间约束（因为每个网格单元只预测两个边界框，并且只能有一个类别）。这个空间约束限制了YOLO可以预测的邻近目标的数量，因此，使用YOLO对鸟群、人群和车队进行预测的效果并不理想。

YOLO的一个较小版本Fast YOLO，通过将YOLO v1的卷积层从24层压缩到9层，使得处理速度达到了惊人的155帧每秒，并在这些层中使用较少的滤波器。除了网络规模，YOLO和Fast YOLO的所有训练和测试参数都是相同的。

YOLOv1代码讲解

帅殿天下

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
YOLOV1

YOLOv1介绍人们只需瞥一眼图片就知道图片中有什么物体，物体的位置及它们之间的联系。人类的视觉系统是快速而准确的，使我们可以做很复杂的事，比如开车时不用刻意去思考。快速，准确的物体检测算法将允许计算机在没有专用传感器的情况下驾驶汽车，使辅助设备能够向人类用户传达实时场景信息，并释放通用，响应式机器人系统的潜力。yolo的几个优势第一,YOLO速度非常快,我们可以把检测看做是一个分类和回归的问题,不需要复杂的流程,在测试过程中,我们只需要将一个新的图片,输入到网络中来检测物体,yolov1的基本网络
复制链接

扫一扫