CV之DL之Yolov1：Yolo算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

本文链接：https://blog.csdn.net/qq_41185868/article/details/79926293

CV之DL之Yolov1：Yolo算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

相关论文

《You Only Look Once: Unified, Real-Time Object Detection》翻译与解读

地址	论文地址：https://arxiv.org/abs/1506.02640
时间	2015年6月8日
作者	Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
总结	该论文提出了一种新的物体检测方法YOLO(You Only Look Once，你只需看一次)。 YOLO的核心思想是将物体检测视为一个回归问题，直接从整张图像像素预测边界框坐标和分类概率，而不是将分类器转换为检测任务。具体而言： YOLO将输入图像划分为S×S个格子，每个格子负责预测图像中中心点落在该格子内的目标。每个格子预测B个边界框和这些框的置信度scores。置信度衡量框是否包含目标和预测框与 ground truth 的重合程度。还预测C个分类概率，条件于该格子包含目标。训练过程中使用均方损失函数进行端对端优化，考虑了坐标回归、分类和背景框的预测。 YOLO的主要优点和贡献如下： >> 速度快，整个检测pipe线采用单个网络实现，最小化重复计算，实时测试速度可达45FPS。 >> 考虑全局上下文，每个格子利用整张图像特征进行预测。 >> 直接优化检测性能，没有过多依赖于中间步骤如缩小搜索空间。 >> 具有很强的泛化能力，能很好地处理新类别和域之间的变化。 >> 开源代码和预训练模型提供下载。 >> 缺点是定位错误相对多，对小目标定位效果不佳。后续工作可以考虑如何提高精确度，尤其是对小目标的定位。与其他顶级检测方法相比，YOLO平衡了速度和准确性的 trade-off，开创了物体检测向实时和端到端学习的新趋势。

Abstract

We present YOLO, a new approach to object detection. Prior work on object detection repurposes classifiers to perform detection. Instead, we frame object detection as a regression problem to spatially separated bounding boxes and associated class probabilities. A single neural network predicts bounding boxes and class probabilities directly from full images in one evaluation. Since the whole detection pipeline is a single network, it can be optimized end-to-end directly on detection performance.

Our unified architecture is extremely fast. Our base YOLO model processes images in real-time at 45 frames per second. A smaller version of the network, Fast YOLO, processes an astounding 155 frames per second while still achieving double the mAP of other real-time detectors. Compared to state-of-the-art detection systems, YOLO makes more localization errors but is far less likely to predict false detections where nothing exists. Finally, YOLO learns very general representations of objects. It outperforms all other detection methods, including DPM and R-CNN, by a wide margin when generalizing from natural images to artwork on both the Picasso Dataset and the People-Art Dataset.

我们提出了YOLO，一种新的目标检测方法。以往的目标检测工作重新利用分类器执行检测。相反，我们将目标检测构建为一个回归问题，以空间分离的边界框和相关的类别概率进行建模。一个单一的神经网络直接从完整图像中预测边界框和类别概率，完成一次评估。由于整个检测流程是一个单一网络，因此可以直接在检测性能上进行端到端的优化。

我们的统一架构速度极快。我们的基本YOLO模型以每秒45帧的速度实时处理图像。网络的较小版本，Fast YOLO，以惊人的每秒155帧的速度处理图像，同时仍然实现了其他实时检测器两倍mAP的性能。与最先进的检测系统相比，YOLO可能会产生更多的定位错误，但很不容易在不存在目标的地方预测虚假检测。最后，YOLO学习到非常通用的目标表示。在从自然图像到Picasso数据集和People-Art数据集的艺术作品进行泛化时，它在所有其他检测方法（包括DPM和R-CNN）中表现出色。

Yolo算法的简介

YOLO作者是Joseph Redmon约瑟夫·雷蒙，论文发表于CVPR2016，目标检测的论文《You Only Look Once: Unified, Real-Time Object Detection》。You Only Look Once顾名思义，作者强调的是单阶段的模型。

1、特点及优缺点

(1)、贡献

改革了基于建议框的检测框架。
R-CNN系列需要生成建议框，然后对建议框进行分类与回归。
建议框之间重叠，造成重复工作。
YOLO将全图划分为S×S的格子，每个格子负责对落入其中的目标进行检测，一次性预测所有格子所含目标的边界框、定位置信度、以及所有类别概率向量。

(2)、优点

快速(45fps)，适合实时处理。
预测目标位置和类别由单个网络完成。可以端到端训练以提高准确性。
YOLO更加一般化。当从自然图像推广到其它领域（如艺术图像）时，它优于其他方法。

(3)、缺点

对小目标及邻近目标检测效果差：当一个小格中出现多于两个小目标或者一个小格中出现多个不同目标时效果欠佳。
原因：B表示每个小格预测边界框数，而YOLO默认落入同一格子里的所有边界框均为同种类的目标。

2、YOLO中的VOC数据集概念

YOLO本身使用的是VOC的数据集，所以可以按照VOC数据集的架构来构建自己的数据集。现在深度学习很多框架都在使用VOC数据集。一般voc解压出来后都包括Annotations,ImageSets,JPEFImages,SegmentationClass ,SegmentationObject; Annotations中是放着所有图片的标记信息，以xml为后缀名.以分类检测的数据为例，打开ImageSets中的layout，会有train，trainval，val三个txt格式数据：

1 train 很明显是训练数据（注意，均为图片名，没有后缀）
2 val 验证数据
3 trainval 则是所有训练和验证数据
4 test 测试数据

3、论文术语相关概念

anchor概念：根据YOLOv2的论文，YOLOv2使用anchor boxes来预测bounding boxes的坐标。YOLOv2使用的anchor boxes和Faster R-CNN不同，不是手选的先验框，而是通过k-means得到的。anchor的窗口尺寸，三个面积尺寸（128^2，256^2，512^2），然后在每个面积尺寸下，取三种不同的长宽比例（1:1,1:2,2:1）.这样一来，我们得到了一共9种面积尺寸各异的anchor。训练YOLO2时会用到cfg文件，这个网络结构文件里面的Region层有一个anchors参数就是论文中对应的用k-means方法产生的5个box的信息。grid和anchor的唯一作用就是为了计算IOU，从而来确定正负样本。

对于每个3x3窗口，作者假定它来自9种不同原始区域的池化，但是这些池化在原始图片中的中心点，都完全一样。这个中心点，就是刚才提到的，3x3窗口中心点所对应的原始图片中的中心点。如此一来，在每个窗口位置，我们都可以根据9个不同长宽比例、不同面积的anchor，逆向推导出它所对应的原始图片中的一个区域，这个区域的尺寸以及坐标，都是已知的。而这个区域，就是我们想要的 proposal。