关于YOLO的资料收集

最新推荐文章于 2024-08-27 11:19:21 发布

干粮的节操菌

最新推荐文章于 2024-08-27 11:19:21 发布

阅读量826

点赞数

YOLO，英文当中的You only look once的缩写，是目前最先进的实时对象检测系统。据网上撰写数据，它在台式机显卡Titan X上，能实时处理40-90fps/s的图像，准确率高达78.6%（VOC 2007）或COCO test-dev的48.1%。

voc-2017基本信息

作为标准数据集，voc-2007 是衡量图像分类识别能力的基准，faster-rcnn，yolo -v1, yolo-v2都以此数据集为最为演示样例。

知乎上赵丽丽老师对YOLO的详解和我的一些笔记，详解基于CVPR2016 目标检测论文：

（赵丽丽老师知乎答案原文地址点击）

（参考网站原文地址点击）

从以下五个方面解读此论文：

创新
核心思想
效果
改进
实践

1.工作原理与创新。

工作原理

以前的检测系统通过重复利用分类器和定位器来实现目标识别，它们把模型套在图像的不同位置和大小区域，通过图像各区域的最高值来判定结果。

YOLO使用了完全不同的方法，它通过把一个单独的神经网络放在整个图像上来进行识别。这个网络把图像分成区域并对边框和个区域的可能性进行预测，这些边框通过预测到的可能性进行加权。

YOLO模型相比与基于分类器的系统有几个优势，它在观测时观察整个图像，所以它的预测是基于整个图像上下文的，并且它通过一个单一的网络进行预测，不像R-CNN系统需要对一副图像运用上千的网络。这一特点使得YOLO的速度是快速R-CNN的一百倍，是R-CNN的上千倍。这也就是赵丽丽老师所说的创新。

创新

YOLO将物体检测作为回归问题求解。基于一个单独的end-to-end网络，完成从原始图像的输入到物体位置和类别的输出。从网络设计上，YOLO与R-CNN，fast R-CNN，faster R-CNN的区别如下：

YOLO训练和检测均是在一个单独网络进行，YOLO没有显示地求取region proposal的过程。而R-CNN和fast R-CNN采用分离的模块（独立于网络之外的selective search方法）求取候选框（可能会包含物体的矩形区域），训练过程因此也是分成多个模块进行。faster R-CNN使用RPN（region proposal network）卷积网络代替R-CNN和faster R-CNN的selective search模块，将RPN集成到fast R-CNN检测网络中，得到一个统一的检测网络。尽管RPN与fast R-CNN共享卷积层，但是在模型训练过程中，需要反复训练RPN网络和fast R-CNN网络（注意这两个网络核心卷积层是参数共享的）。
YOLO将物体检测作为一个回归问题进行求解，输入图像经过一次inference，便能得到图像中所有物体的位置和其所属类别及相应的置信概率。而R-CNN/fast R-CNN/faster R-CNN将检测结果分为两部分求解：物体类别（分类问题）和物体位置（bounding box，回归问题）。

==========================================================

2.核心思想

2.1网络定义

YOLO检测网络包括24个卷积层和2个全连接图层，如下图所示：

其中·，卷积层用来提取图像特征，全连接层用来预测图像位置和类别概率值。

YOLO网络借鉴了GoogLeNet分类网络结构。不同的是，YOLO未使用inception module，而是使用了1x1卷积层（为了跨通道信息整合）+3x3卷积简单替代。

YOLO论文中，作者还给出一个更轻快的检测网络fast YOLO，它只有9个卷积层和2个全连接层。使用Titan xGPU，fast YOLO可以达到155fps/s的检测速度，但是mAP值也从YOLO的63.4%降到了52.7%，但却仍然远高于以往的实时物体检测（DPM）的mAP的值。

2.2输出representation定义

本部分给出YOLO全连接输出层的定义。

YOLO将输入图像分成SxS个格子，每个格子负责检测”落入“该格子的物体，若某个物体的中心位置的坐标落入到某个格子，那么这个格子就负责检测出这个物体。如下图所示，图中物体狗的中心点（红色原点）落入第五行，第二列的格子内，所以这个格子就负责预测图像中的物体，狗。

每个格子输出B个bounding box（包含物体的矩形区域）信息，以及C个物体属于某种类别的概率信息。

Bounding box信息包含5个数据值，分别是x，y，w，h和confidence。

其中，

x，y是指当前格子预测得到的物体的bounding box的中心位置相对于当前格子位置的偏移值，并且被归一化到【0，1】。

confidence，系统对自己预测结果的自信度，反应当前bounding box是否包含物体以及物体位置的准确性。

目标检测网络之 YOLOv3

原文: https://www.cnblogs.com/makefile/p/YOLOv3.html © 康行天下

网络结构

YOLOv1网络借鉴了GoogLeNet分类网络结构。不同的是，YOLO未使用inception module，而是使用1x1卷积层（此处1x1卷积层的存在是为了跨通道信息整合）+3x3卷积层简单替代。
YOLOv1网络在最后使用全连接层进行类别输出，因此全连接层的输出维度是 S×S×(B×5+C)

YOLOv3：An Incremental Improvement全文翻译

YOLOv3的前世今生

2015年，R-CNN横空出世，目标检测DL世代大幕拉开。

各路豪杰快速迭代，陆续有了SPP，fast，faster版本，至R-FCN，速度与精度齐飞，区域推荐类网络大放异彩。

奈何，未达实时检测之基准，难获工业应用之青睐。

此时，凭速度之长，网格类检测异军突起，先有YOLO，继而SSD，更是摘实时检测之桂冠，与区域推荐类二分天下。然准确率却时遭世人诟病。

遂有JR一鼓作气，并coco，推v2，增加输出类别，成就9000。此后一年，作者隐遁江湖，逍遥twitter。偶获灵感，终推v3，横扫武林！

准确率不再是短板

自从YOLO诞生之日起，它就被贴上了两个标签，

1.速度很快。

2.不擅长检测小物体。

而后者，成为了很多人对它望而却步的原因。

由于原理上的限制，YOLO仅检测最后一层卷积输出层，小物体像素少，经过层层卷积，在这一层上的信息几乎体现不出来，导致难以识别。

YOLOv3在这部分提升明显。先看看小物体的识别。

YOLOv3的识别结果

直观地看下和YOLOv2的对比图如下。可以看出，对于小物体的识别，提高非常明显。

无论是传统的模式识别图像检测，还是基于CNN的视觉检测，对于紧凑密集或者高度重叠目标的检测通常是非常困难的。比如对合影的人群检测在YOLOv2上的结果：

而下面是v3的结果：

前方高能预警。。。。。。。。。。。。。。。。

一次检测到图中90%的人，还增加了tie（领带）这个新类别，非常惊艳！

再看看模型的泛化能力如何：

骷髅并不在训练数据集中，但是通过训练模型强大的泛化能力，自动将其归类到了人类。（也算是最为合理的近似处理了）

这在YOLOv2中是检测不到的。

那么，模型泛化能力很强的副作用，就是分类结果跑偏，比如下面这张coser的识别图，最左侧的人识别成了马：

训练和检测都很快

论文中做了详尽的对比。

和前辈们比，YOLO 的速度非常快，比 R-CNN 快 1000 倍，比 Fast R-CNN 快 100 倍。

和同辈们比，YOLOv3-608检测准确率比DSSD更高，接近FPN，但是检测时间却只用了后面两者的三分之一不到。

原因如论文中所说，它在测试时观察整张图像，预测会由图像中的全局上下文（global context）引导。它还通过单一网络评估做出预测，而不像 R-CNN 这种系统，一张图就需要成千上万次预测。

用了哪些黑科技？

多级预测：终于为yolo增加了top down 的多级预测，解决了yolo颗粒度粗，对小目标无力的问题。v2只有一个detection，v3一下变成了3个，分别是一个下采样的，feature map为13*13，还有2个上采样的eltwise sum，feature map为26*26，52*52，也就是说v3的416版本已经用到了52的feature map，而v2把多尺度考虑到训练的data采样上，最后也只是用到了13的feature map，这应该是对小目标影响最大的地方。在论文中从单层预测五种boundingbox变成每层3种boundongbox；
loss不同：作者v3替换了v2的softmax loss 变成logistic loss，由于每个点所对应的bounding box少并且差异大，每个bounding与ground truth的matching策略变成了1对1。当预测的目标类别很复杂的时候，采用logistic regression进行分类是更有效的，比如在Open Images Dataset数据集进行分类。在这个数据集中，会有很多重叠的标签，比如女人、人，如果使用softmax则意味着每个候选框只对应着一个类别，但是实际上并不总是这样。复合标签的方法能对数据进行更好的建模。
加深网络： 采用简化的residual block 取代了原来 1×1 和 3×3的block; (其实就是加了一个shortcut，也是网络加深必然所要采取的手段)。这和上一点是有关系的，v2的darknet-19变成了v3的darknet-53，为啥呢？就是需要上采样啊，卷积层的数量自然就多了，另外作者还是用了一连串的3*3、1*1卷积，3*3的卷积增加channel，而1*1的卷积在于压缩3*3卷积后的特征表示。
router：由于top down 的多级预测，进而改变了router（或者说concatenate）时的方式，将原来诡异的reorg改成了upsample

下一代YOLO长啥样？

mAP会继续提高。随着模型训练越来越高效，神经网络层级的不断加深，信息抽象能力的不断提高，以及一些小的修修补补，未来的目标检测应用mAP会不断提升。
实时检测会成为标配。目前所谓的“实时”，工业界是不认可的。为什么呢，因为学术圈的人，验证模型都是建立在TitanX或者Tesla这类强大的独立显卡上，而实际的潜在应用场景中，例如无人机/扫地/服务机器人/视频监控等，是不会配备这些“重型装备”的。所以，在嵌入式设备中，如FPGA，轻量级CPU上，能达到的实时，才是货真价实的。
模型小型化成为重要分支。类似于tiny YOLO的模型分支会受到更多关注。模型的小型化是应用到嵌入式设备的重要前提。而物联网机器人无人机等领域还是以嵌入式设备为主的。模型剪枝/二值化/权值共享等手段会更广泛的使用。

说点题外话：

YOLO让人联想到龙珠里的沙鲁（cell），不断吸收同化对手，进化自己，提升战斗力：YOLOv1吸收了SSD的长处（加了 BN 层，扩大输入维度，使用了 Anchor，训练的时候数据增强），进化到了YOLOv2；

吸收DSSD和FPN的长处，仿ResNet的Darknet-53，仿SqueezeNet的纵横交叉网络，又进化到YOLO第三形态。

但是，我相信这一定不是最终形态。。。让我们拭目以待吧！

作者：深度智能
链接：https://zhuanlan.zhihu.com/p/36899263
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

全卷积神经网络

YOLO仅是用卷积层，所以它是全卷积网络（FCN）。它具有75个卷积层，具有跳过连接和上采样层。不使用任何形式的池化，使用具有步幅为2的卷积层来下采样特征图。这有助于防止由于池化导致低级特征的丢失。

作为FCN，YOLO的输入图像的大小是任意的。然而，在实践中，我们可能想要保持输入大小不变，因为各种问题只有在我们实现算法时才会显示出来。

其中的一个重要问题是，如果我们想要批量处理图像（批量图像可以由GPU并行处理，从而提高速度），我们需要固定所有图像的高度和宽度。这是为了将多个图像级联成一个大批量（将多个PyTorch张量连接成一个）

网络通过称为网络步幅的因子对图像进行下采样。例如，如果网络的步幅为32，则尺寸为416 x 416的输入图像将产生尺寸为13 x 13的输出。一般而言，网络中任何层的步幅等于该层的输出的尺寸比网络的输入图像的尺寸小的倍数。

解析输出

典型地，（对于所有目标检测器都适用）卷积层学习的特征会被传递到进行检测预测（边界框的坐标，类标签等）的分类器/回归器。

在YOLO中，预测是通过使用1×1卷积的卷积层完成的。

现在，首先要注意的是我们的输出是一个特征图。由于我们使用了1 x 1卷积，所以预测图的大小恰好是之前的特征图的大小。在YOLO v3（以及它的后续版本）中，这个预测图的每个单元格可以预测固定数量的边界框。

虽然实际上描述特征图中的单元的正确术语应该是神经元，但将其称为单元格使得它在我们的上下文中更加直观。

深度方面，我们在特征图中有（B x（5 + C））个条目。 B表示每个单元可以预测的边界框的数量。根据该论文，这B个边界框中的每一个可能专门检测某种目标。每个边界框都有5 + C个属性，分别描述每个边界框的中心坐标，尺寸，目标分数（objectness score）和C个类的置信度。 YOLO v3为每个单元格预测3个边界框。

如果目标的中心位于单元格的感受野中，则希望特征图中的单元格可以通过其中一个边界框来预测目标。（感受野是输入图像对单元格可见的区域，进一步说明请参见关于卷积神经网络的链接）。

这与YOLO是如何训练的有关，训练时只有一个边界框负责检测任何给定的目标。首先，我们必须确定这个边界框属于哪个单元格。

为此，我们将输入图像划分成与最终特征图有相同维度的网格。

作者：深度智能
链接：https://zhuanlan.zhihu.com/p/36899263
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。