YOLO论文记之概述与实践_yolo毕业论文-CSDN博客

本文链接：https://blog.csdn.net/eric_doug/article/details/51594579

由于毕业论文方向选定为视频目标检测与跟踪，经过在paper池中查找，从rbg大神的R-CNN系列一直找到这篇最新的顶级paper，发现这篇论文的思路太棒了，而且该项目还自己写了一个开源的框架，论文的实验也开源了，故而准备以该研究为起点。(该部分属于自己瞎扯淡，大神可以直接忽略)
以下正式进入翻译阶段：

概述

我们提出一种叫YOLO新的目标检测方法。以前的目标检测的研究大多是改进分离器来进行检测。我们将目标检测的当做一种回归的问题来解决，通过空间的分割成边界框和相应类别的概率。我们采用单独的网络直接从整副图像来预测边界框和类别的概率。因为整个检测在一个网络内，所以它可以直接优化端到端的检测性能。（第一段大致这个意思，若有更准确的翻译，麻烦在下方回复，我会及时修改！）

感觉翻译论文有点麻烦，直接翻译大神的博客吧！哈哈！版权归属pj大神

YOLO是基于Pascal VOC2012数据集的目标检测系统。它能够检测到20种Pascal的目标类别，包括：

人
鸟，猫，牛，狗，马，羊
飞机，自行车，船，汽车，摩托车，火车
瓶子，椅子，桌子，盆栽植物，沙发，电视或者显示器

YOLO是大神们开发的！哈哈！paper

YOLO是怎样运行的？

以前的检测系统大多是改进分类器或者改进定位器来进行检测。它们都将模型应用多个定位点和尺度。图片中得分高的区域就认为是检测到物体。

大神们使用不同的方法。他们单独使用神经网络来检测整张图片。网络能够将图片划分为不同的区域，然后预测边界框和每个区域的概率。这些区域框是通过预测的概率值来权重的（这段翻译的有点拗口，欢迎大家拍砖！！！）。
这地方感觉有点难理解，我们来看看大神的论文吧！

论文中第二部分(Unified Dectection)中说到：我们的系统将输入的图片分成一个 $S \times S$ 网格。如果目标的中心在网格的单元内，所对应的网格单元负责检测对应的目标。每一个网格单元预测 $B$ 边界框和这些边界的置信的分数。它们的置信的分数表征了该边界包含该目标的模型得分，同事也可以给出模型对该边界的预测值。其中置信分数是通过如下计算公式得到的：
$P r (O b j e c t) * I O U t r u t$