由于毕业论文方向选定为视频目标检测与跟踪,经过在paper池中查找,从rbg大神的R-CNN系列一直找到这篇最新的顶级paper,发现这篇论文的思路太棒了,而且该项目还自己写了一个开源的框架,论文的实验也开源了,故而准备以该研究为起点。(该部分属于自己瞎扯淡,大神可以直接忽略)
以下正式进入翻译阶段:
概述
我们提出一种叫YOLO新的目标检测方法。以前的目标检测的研究大多是改进分离器来进行检测。我们将目标检测的当做一种回归的问题来解决,通过空间的分割成边界框和相应类别的概率。我们采用单独的网络直接从整副图像来预测边界框和类别的概率。因为整个检测在一个网络内,所以它可以直接优化端到端的检测性能。(第一段大致这个意思,若有更准确的翻译,麻烦在下方回复,我会及时修改!)
感觉翻译论文有点麻烦
,直接翻译大神的博客吧!哈哈!版权归属pj大神
YOLO是基于Pascal VOC2012数据集的目标检测系统。它能够检测到20种Pascal的目标类别,包括:
- 人
- 鸟,猫,牛,狗,马,羊
- 飞机,自行车,船,汽车,摩托车,火车
- 瓶子,椅子,桌子,盆栽植物,沙发,电视或者显示器
YOLO是大神们开发的!哈哈!paper
YOLO是怎样运行的?
以前的检测系统大多是改进分类器或者改进定位器来进行检测。它们都将模型应用多个定位点和尺度。图片中得分高的区域就认为是检测到物体。
大神们使用不同的方法。他们单独使用神经网络来检测整张图片。网络能够将图片划分为不同的区域,然后预测边界框和每个区域的概率。这些区域框是通过预测的概率值来权重的(这段翻译的有点拗口,欢迎大家拍砖!!!)。
这地方感觉有点难理解
,我们来看看大神的论文吧!
论文中第二部分(Unified Dectection)中说到:我们的系统将输入的图片分成一个 S×S 网格。如果目标的中心在网格的单元内,所对应的网格单元负责检测对应的目标。每一个网格单元预测 B 边界框和这些边界的置信的分数。它们的置信的分数表征了该边界包含该目标的模型得分,同事也可以给出模型对该边界的预测值。其中置信分数是通过如下计算公式得到的:
Pr(Object)∗IOUtrut