yolov1论文笔记摘抄

爱喝欢乐水的柳橙汁

已于 2022-04-20 23:45:04 修改

阅读量1.1k

点赞数 2

分类专栏：论文笔记文章标签：机器学习人工智能计算机视觉目标检测神经网络

于 2022-04-20 23:40:17 首次发布

本文链接：https://blog.csdn.net/Liuchengzhizhi/article/details/124310332

版权

论文笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

You Only Look Once : Unified, Real-Time Object Detection

前言：这个呢是看了b站同济子豪兄的视频进行的记录，因为能力有限，所以就想着用记录视频作者解释的话来慢慢理解yolo，所以这里的文字内容，大部分都是作者的原话。所以该文章主要是给自己看的。

*作者：Joseph Redmon ,Santosh Divvala ,Ross Girshick ,AliFarhadi

**机构：*University of Washington ,Allen Institute for AI , Facebook AI Research

名词解析

DPM算法：滑动窗口分类器

R-CNN算法：

第一阶段：提取潜在的候选框（Region Proposa）
第二阶段：用分类器逐一筛选每一个候选框

NMS：Non-max suppresion 非极大值抑制，用于过滤重复的预测框

AP：average precision 平均查准率（详细看西瓜书）

IOU：Intersection over Union 是一种测量在特定数据集中检测相应物体准确度的一个标准

confident：置信度

$1^{obj}_{ij}$ ：指示函数（indicator function）含义是：当输入为True的时候，输出为1，输入为False的时候，输出为0。

dropout：在训练过程中每一步都随机掐死一半的全连接层的神经元，使得它的输出和反向传播回来的都为0（打破神经元联合依赖适应性）

数据增强：可以扩充数据集，可以防止过拟合可以让模型适应各种各样的变化，提高鲁棒性

视频解读摘抄：同济子豪兄-yolov1

https://www.bilibili.com/video/BV15w411Z7LG?p=11&share_source=copy_web

摘要：

从分类问题转化为回归问题，使用单独的神经网络，既可以预测预测框的坐标，也可以预测类别。可以进行端到端的优化（这是神经网络的优点），一次性解决所有问题，而不需要像多阶段问题解决，一个环节出错，就不能够使用。

识别速度快，出现更多的定位误差，但是把背景误判为目标的问题，比较小。同时yolo泛化迁移能力比较强，各行各业都能使用yolo。

1. Introduciton：

以前的目标检测器都是重复使用分类器。比如DPM算法，滑动窗口分类器。

另一种方法是R-CNN，先提取出2~3000个候选框，然后再逐一的进行分类和回归，这里就可能用到一些算法进行后处理，比如用非极大抑制NMS来消除重复的预测框，然后再微调每一个预测框，根据图像上其他物体，重新给每一个预测框打分（这里是非常繁琐的，依赖庞大的供应链，一个问题出错，就不能使用了）。

而yolo重新定义回归问题。从输入图像，直接获得每一个定位信息还有就是预测结果，目标和类别。下图就是yolo的预测阶段的演示图

优点：

速度快，可以达到每秒45帧的速度（Titan X显卡），最快的可以达到150fps。可以达到实时检测，同时相对于其他实时检测模型，准确模型是他们的两倍。
能够捕获全图的信息，上下文信息。把背景无当做目标的错误是很少的。
泛化能力，迁移能力比较强。是要比DPM，R-CNN模型的泛化能力高得多。用于新领域，它的性能下降的是比较少的。迁移能力是比较好的。

缺点：

在定位能力和小目标的识别能力是比较差的。（后面论文可以看出来）

2.Unified Detection

统一的目标检测框架

该神经网络能够捕获全图的信息，预测每一个预测框的坐标和分类。这意味着网络能够挖掘全图的信息。同时能够一步到位的识别出所有物体，让实时预测称为可能，同时保持一个高的AP（Average Precision）

在这个系统，我们将图片划分为S x S 个 grid cell（网格单元），该论文用的是7*7的网格。

每个grid cell 预测 B 个bounding boxes(包围盒) ，该论文用的是2个bounding boxes。在训练阶段，哪一个bounding box与人工标注的IOU（交并比）最大，就由哪一个bounding boxes去负责预测这个物体。训练阶段是一个监督学习，来使得损失函数最小化的过程。下图是置信度的计算公式（ $Pr(Object)*IOU^{truth}_{pred}$ ），用于损失函数。

包含该物体的概率（非0即1） * 人工标注框的交并比（包含物体*离这个物体有多近）

在预测阶段：回归出多少就是多少，不需要直接计算Pr(Object)和IOU，而是隐式的包含两者。

每一个bounding box都包含5个参数，x,y,w,h,和confidence（x,y：中心点的横纵坐标 w,h：bounding box的宽高），每一个bounding box 的中心点，都应该落在grid cell里面，不能超出。无论bounding box多大。所以(x,y)是相对于grid cell 坐标，是在0_{1之间的。(w,h)是相对于整幅图片的，所以也在0}1之间，confidence，也是在0~1之间的。这样都归一化了，比较好处理。confidence是预测框和实际框之间的IOU。

每一个grid cell 还需要预测C个conditional class probablities（条件类别概率）$ Pr(Class_i|Object)$（在当前bounding box 已经包含物体的条件下，各类别的概率）。给个grid cell 只预测一组条件类别概率，它对应的B个bounding box共享这个条件类别概率

测试阶段将每个bounding box 的confidence score 与所在grid cell的条件类别概率相乘。等号右边即表明了分类的精度，又表明了IOU的精度
$Pr(Class_i|Object)*Pr(Object)*IOU^{truth}_{pred}=Pr(Class_i)*IOU^{truth}_{pred}$

预测阶段：

将输入图片划分为s*s个grid cell
每个grid cell 预测出两个bounding box（可以大小各异，只要中心点在这个grid cell里面）
每一个grid cell 都产生4个参数和一个confidence参数，confidence 就用线的粗细来表示，位置参数就用框来表示
每一个gird cell 预测一组条件类别概率
把上下两张图整合到一起，把低置信度框过滤掉，把重复的预测框用非极大值抑制剃掉，然后再加上类别就产生了最后图片的结果
我们就知道了图像上，每个框的位置和图像类别

训练阶段：

人工标注的Ground Truth框中心点落在哪一个grid cell中就应由哪个grid cell预测这个物体
每个grid cell 预测B个bounding boxes
与Ground Truth 框IOU最大的bounding boxes负责预测这个物体
每个grid cell只能检测一个物体
所以所有的bounding box被分成了三类
1. 负责预测物体的bounding box
2. 在预测的grid cell里面，但是不负责预测物体的bounding box——这是被挤占掉的bounding box
3. 不负责预测物体的grid cell 里边的bounding box

改论文用的是PASCAL VOC数据集上，S=7 B=2 ，有20个标签分类C=20.最后张量的维度是7 * 7 * 30（张量：7 * 7的矩阵，构成了一张纸，把30张纸堆起来，形成了一本书，这本书就形成了该数据结构）

2.1Network Design 网络设计

使用卷积神经网络来实现在PASCAL VOC目标检测数据集上进行评估，最开始的卷积层负责提取特征。后面的全连接层负责预测出这些数值。和图像分类类似（图像分类示全连接层预测每一个类别的概率，而这里的全连接层负责预测这个图片的张量）

该神经网络是受到了GoogLeNet 模型的启发。包含了24个卷积层，最后有两个全连接层。GoodLeNet使用的是inception modules。但我们这儿没有使用这个，而是使用了1 * 1卷积（1 * 1卷积是启发与network in network 这篇文章）（1 * 1卷积有很多作用，比如降维，升维，跨通道信息交流，减少权重，都是由1 * 1卷积实现的）跟上3 * 3卷积。

我们也训练了更快的yolo版本，Fast YOLO，将快速达到极致，使用更少的卷积层（9个），使用了更少的卷积核。但是其他的网络参数都是和基准的yolo是一样的。

Figure 3：The Architecture:该检测神经网络含有24个卷积层跟着2个全连接层。交替使用1 * 1卷积层和3 * 3卷积，11卷积的目的是降维，减少feature map的个数，也就是减少了权重个数和计算量。整个网络先是用ImageNet 图像分类这个数据集去训练。使用的是224 * 224的输入图片的分辨率。然后再在448448分辨率上训练检测的模型。

**看一下这个图：**输入448 * 448 * 3通道。先用64个7 * 7的卷积核，以步长为2进行卷积来最大池化（2 * 2）。然后再用192个3 * 3卷积核去卷积，然后再2 * 2池化，步长为2。然后还是一样，级联一步一步的走下去。到末尾，获得一个7 * 7 *1024维的张量，拉平，喂到一个4096的全连接层里面，输出一个4096维的向量，再把4096维的向量，喂到有1470个神经元的全连接层。输出1470维的向量。吧1470维的向量在reshape一下，就变成了7 * 7 *30的张量。（所有的坐标，类别，confidence等信息，都在这个7 * 7 * 30维的数据结构里）

2.2 Training 训练细节

先在1000个图像类别的ImageNet上面预训练模型，训练出前20个卷积层。在20个卷积层后加上一个全局平均池化（替代了全连接层），在跟上一个全连接层去训练图像分类模型。（训练了1个星期）。达到single-crop top-5准确度为88%。在ImageNet 2012的训练集上和在Caffe的框架里的GoogLeNet准确率是相当的。（用了自己的做的Darknet 框架训练）

上面就是预训练的图像分类模型，然后再保留这个模型的权重来训练目标检测的模型。任少卿的论文证明在后面加上卷积层和全连接层能够提升性能。所以根据这个思路在后面又加上了4个卷积层和2个全连接层。这些层的权重都是随机初始化的。目标检测通常需要细粒度的视觉信息（应为要进行框的定位，不可能太粗粒度），所以吧图像的分辨率从224 * 224，提高到448 * 448。

最后这层即预测出类别概率也预测出定位坐标，宽度和高度，横坐标和纵坐标都是经过归一化的，都是0~1之间。横纵坐标是grid cell左上角的偏移量，所以也是在0~1之间的。

最后一层使用的是线性激活函数(相当于是没有非线性激活函数)，其他的层使用的是Leaky ReLU函数（下图和下面的公式）
$\phi(x)=\left\{ \begin{matrix} x,\qquad if \quad x>0 \\ 0.1x,\qquad otherwise \end{matrix} \right.$

在这里插入图片描述

相比于传统的ReLU函数，小于0就一刀切，只有正值才能获得梯度不一样。Leaky ReLU函数可以再负值的时候也能获得一定的梯度，让其有可能翻盘。

平方和误差很容易优化，但是它跟最大化平均精度和最大化平均性能不能够完全的吻合。在识别图像中，平方和误差对定位误差和分类误差是一视同仁的，而且一张图片上有许多grid cell不包含图像，不负责预测物体。这会导致confidence尽可能的变为0，这些坏的损失函数的效应就会压倒梯度，削弱好的损失函数的作用。甚至导致早期的发散（如果强行使用平方和误差，就会导致坏的损失函数占主导。好的损失函数的作用就发挥不出来了）。所以需要采取不同的权重。（平方和误差回归问题损失函数易于优化，但对于定位和分类误差一视同仁，对包含物体和不包含物体的bounding box 一视同仁，对大框和小框一视同仁）

为了削弱坏孩子（坏的损失函数）的作用，为了补偿这个效应，我们增加负责预测物体的bounding box的权重，削弱不负责不包含物体的bounding box的权重。分别给与 $\lambda_{coord}=5$ （负责检测物体的bbox）和 $\lambda_{noobj}=.5$ （.5是0.5的意思）（不负责检测物体的bbox）的权重。

同样的平方和误差对也对大小框一视同仁。在原来的绝对误差情况下，同样的相对误差情况下大框的绝对误差要大很多，对大框是很不公平的，所以现在取了一个根号。同样的相对误差的情况下，大框的绝对误差也就比较小了。（针对大小框一视同仁的情况，计算h和w平方根之差，引入损失函数削弱大框误差）

YOLO在每个grid cell 预测b个bounding box。在训练期间每一个bounding box 来负责预测一个物体。让这个预测框与真实的框(ground truth)交并比最大。这就会导致预测框专门化（训练过分的话，那么也会导致过拟合）。这样每一个预测框能更好的预测特定大小，横纵比，对象类别从而提高整体回忆能力。

loss function:
$\lambda_{coord}\sum_{i=0}^{s^2}\sum_{j=0}^B1^{obj}_{ij}[(x_i-\hat{x_i})^2+(y_i-\hat{y_i})^2]\\ +\lambda_{coord}\sum_{i=0}^{s^2}\sum_{j=0}^B1^{obj}_{ij}[(\sqrt{\omega_i} -\sqrt{\hat{\omega_i}})^2+(\sqrt{h_i}-\sqrt{\hat{h_i}})^2]\\ +\sum_{i=0}^{s^2}\sum_{j=0}^B 1^{obj}_{ij}(C_i-\hat{C_i})^2\\ +\lambda_{noobj}\sum_{i=0}^{s^2}\sum_{j=0}^B 1^{noobj}_{ij}(C_i-\hat{C_i})^2\\ +\sum_{i=0}^{s^2}1^{obj}_{i} \sum_{c \in classes}(P_i(c)- \hat{P_i}(c))^2$
每一项都是平方和误差，将目标检测问题当做回归问题

函数解析：

负责检测物体的bbox中心点定位误差
负责检测物体的bbox宽高定位误差（求根号能使小框对误差更敏感）
负责检测物体的bbox confidence误差
不负责检测物体的bbox confidence误差
负责检测物体的grid cell 分类误差

注意：

$1^{obj}_{i}$ ：第i个grid cell是否包含物体，也即是否有ground truth框的中心点落在此grid cell中，若有为1否则为0
$1^{obj}_{ij}$ ：第i个grid cell 的第j个bounding box 若负责预测物体则为1否则为0
$1^{noobj}_{ij}$ ：第i个grid cell 的第j个bounding box 若不负责预测物体则为1否则为0

（ $\lambda_{coord}$ 权值为5， $\lambda_{noobj}$ 权值为0.5）

（若2式子为1那么1式子也为1，2式子或者3式子有一个为1，那另一个必为0）

在学习率策略方面，再一开始慢慢增加学习率，如果一开始使用很高的学习率那么该模型会很容易发散，不稳定。然后跟着用 $10^{-2}$ 的学习率学习75轮，然后用 $10^{-3}$ 学习30轮，然后用 $10^{-4}$ 学习30轮。

为了避免过拟合，我们使用dropout和data augmentation（数据增强），随机调整曝光度和饱和度，使用1.5因子在HSV色彩空间。

2.3 Inference推断预测

和训练一样，该模型只要一次就能够获得最终结果。非常快。

网格的设计，强制它在空间上形成差异。虽然每个物体它该由那个grid cell 负责预测是比较清晰地，但是对于较大的物体和靠近边缘的物体可能会有多个预测框预测同一个物体。这时候就需要使用非极大值抑制（Non-maximal suppression）来吧低置信度的预测框过滤掉，只保留高预测度的框。对于yolo非极大值抑制增加了2~3%的mAP。

2.4 Limitations of YOLO （YOLO的缺陷）

应为yolo强制的使用空间限制，每个grid cell只能产生两个bbox和一个类别（一个物体）对小物体检测效果差。（对鸟群而言，效果是比较差的）

虽然该模型能够预测边界框，但是它在新的场景和不寻常的高宽比的图像域里面，它的泛化性能是受限的。而且该模型还是使用的是较粗粒度的特征。中间会有很多的池化层和下采样层。会导致空间信息的缺失。所以颗粒就不会太细粒度。

同时，损失函数是对大小框同等对待的，对于大框而言，一点小小的误差是良性的，但是对于小框而言会带来很大的IOU的影响。所以分类正确但定位误差大是YOLO误差的主要来源。（坐标拟合能力较差）

3.Comparison to other Detection Systems （与其他目标检测框进行对比）

目标检测的核心是计算机视觉的核心问题。而目标检测的流程通常是从图像中提取一系列鲁棒的特征（Haar，SIFT，HOG，convolutional features）。提取这些特征之后再用分类器和回归器在特征空间上进行识别，分类和回归。分类器或者回归器要么是通过划窗的方式，要么是通过候选框从图像中采集子集区域的方式来进行。YOLO是完全不一样的结构。

Deformable parts models（DPM）,与DPM进行比较（DPM 传统特征：HOG 传统分类器：SVM 滑窗套模板，弹簧模型：子模型+主模型）（DPM鲁棒性很差）与DPM不一样，yolo没有使用人工设计好的静态特征。而是使用端到端的优化，深度学习去训练，这种统一的架构，会实现一种比DPM更快更准的模型。

R-CNN,R-CNN是region proposal（候选区域提取）的一个变种，从图像中提取若干个候选框（2~3000）。再逐一的对每个候选框用卷积神经网络进行特征提取，然后再使用SVM（支持向量机）进行分类。然后再用线性模型进行坐标的回归。再用非极大值抑制去除重复的框。这是多阶段的，每一个阶段都需要进行非常精确地独立的调整（依赖一个精准的上下游协作产业链，一旦某个工序有问题，就全部崩盘，而且非常慢，容易出问题）

YOLO和R-CNN有一些相似性，每个grid cell 产生若干个候选框，再用卷积神经网络去进行分类。然而grid cell是有限的，所以候选框也是有限的。所以速度非常快。（而不会像R-CNN产生2000~3000个候选框），而且yolo是把各个部件整合在一起，共同的工作。

Other Fast Detectors Fast 和Faster R-CNN，Fast R-CNN先用卷积神经网络在全图过一遍，再筛选出候选框，这样所有的候框就能共享一套特征。而不用逐一的去提取特征。而Faster R-CNN使用RPN网络代替Selective Search 来产生候选框。虽然这两个精度和速度都要比R-CNN要高，但是都达不到实时的性能。

有很多研究都在尝试加速DPM这个古老的方式，但是都不太行。（大清裱糊匠，该倒还是得倒）

YOLO是把所有的工作整合到一起，从根上就是快的。（而不是去优化每一个工作流）

在人脸和文字上面都是可以被高度优化的。图像域里面不会发生太大的变化，同时yolo是非常通用的，任何产业都能用。

Deep MultiBox类似RPM的模型，用神经网络来提取候选框，提取这个regions of interest(ROI)。其可以实现单物体的检测。但是其不能使用通用物体检测。同时也因为依赖于庞大的工作流，需要对每一个候选框进行分类。是多阶段的。两者都用到了卷积神经网络，但是对于YOLO是完整的检测系统，而对于MultBox是一个组件。

OverFeat该模型是2013年定位竞赛冠军，使用全卷积神经网络进行搞笑的滑窗运算。但是还是一个disjoint system(各工序分离)，而且其是针对定位任务优化，而不是针对目标检测任务。同时其只能看到滑窗内部物体，也是管中窥豹，无法分析全图上下文信息。

MultiGrasp作者自己的模型，受到自己模型的启发-回归出了一个可抓取的区域。然而MultiGrasp是一个更简单的任务，不像目标检测这么复杂，只要负责一个可抓取区域让机器人去抓就可以。图片只需要包含一个物体。它不需要预测图像的尺寸，位置，边界。

4.Experiments（实验）

把yolo和其他模型进行一个对比，特别是Fast R-CNN和Faster R-CNN把错误的比类进行了分析。YOLO错误的把背景识别成物体的比例是比较少的。进一步把YOLO和Fast R-CNN进一步进行结合，可以有效地提高目标检测的性能。同时泛化性能会更好。

4.1Compariso to Other Real-Time Systems(与其他实时检测系统的比较)

有许多研究在努力让目标检测变得更快，但是只有YOLO真的实现了实时检测。都进行了对比。

上半部分是实时检测（FPS>30）下半部分是非实时目标检测（FPS<30）

在实时目标检测里面，YOLO是最准的，同时Fast YOLO是最快的（又快又好）。在非实时目标检测里面，YOLO是最快的。

Fast YOLO速度最快，同时准确度也不错

YOLO VGG-16 速度相对较慢，没有达到实时效果，网络本身就比较庞大，参数量比较大，但是准确度也不错。

Fastest DPM 差实时检测的两倍性能，同时牺牲了很多准确性,同时受限于DPM，从原理上就决定了较低的性能和准确性，相比于神经网络方法

R-CNN minus R 把Selective Search 方法转化为一个静态的bounding box proposals，虽然比原生的R-CNN快，但是还是没有达到实时的性能。同时因为替换了Selective Search方法，所以准确率也大大降低了

Fast R-CNN虽然对RCNN进行了提速，但是还是需要用到Selective Search进行候选框提取，还是需要很长的预测时间。虽然准确率很高

Faster R-CNN把Selective search 替换为RPN神经网络来提取候选框，和Szegedy模型类似。准确度要比YOLO高，但是速度没它快。

4.2 VOC 2007 Error Analysis(YOLO和Faster R-CNN各错误比例分析)

为了更进一步分析YOLO和目前最新的其他目标检测模型的区别，我们使用了一个能够打破它黑箱子预测结果的方法。将YOLO与Fast R-CNN做了比较。

通过Hoiem提出的工具，把测试阶段的每一个类别的前n个预测结果来进行归类，每个预测结果要么是正确的，要么是错误的，错误的话会被分为以下几类：

Correct : correct class and IOU >.5 （类别预测正确且IOU>0.5）
Localization : correct class , .1<IOU<.5 （类别正确且 0.1<IOU<0.5）
Similar : class is similar , IOU >.1 （类别相似且IOU>0.1）
Other : class is wrong ,IOU > .1 （类别预测错误 IOU>0.1）
Background : IOU < .1 forany object （IOU < 0.1）

Figure 4 : Rrror Analysis : Fast R-CNN vs. YOLO 首先Fast R-CNN准确率要比YOLO高，同时Fast R-CNN定位误差要比YOLO低。但是YOLO的Background 误差要比Fast R-CNN低很多。YOLO的定位误差错误很大，甚至比其他误差之和加起来都多，而Fast R-CNN的背景误差是YOLO背景误差的将近3倍。

4.3 Combining Fast R-CNN and YOLO（将Fast R-CNN和YOLO结合）

两者结合能不能优势互补呢？对于每一个预测框，Fast R-CNN预测的预测框看看YOLO有没有预测类似的预测框。如果两者都预测到了这个框，就加一个boost（提升）——根据这两个框的重叠程度。实验结果如下：