YOLO
动机
人类对于物体只需要看一眼就能知道该物体是什么,在什么位置,人类的视觉系统是非常快速而准确的,因此如果能够加速算法使得计算机系统也能够快速而准确的话,就能够代替人而实现无人驾驶。
而目前的一些方法,RCNN系列的都是一套复杂的流程,首先生成一些可能的边框区域,再对边框进行分类,之后再修正边框的位置,然后再对其他的边框再进行处理,这个过程是非常复杂的,所以速度也非常慢。
于是想到将基于候选区域的检测问题转化为回归问题,直接在图上就能够得到目标的类别和位置,只需要对图像处理一次。(You Only Look Once)
主要创新点
改革的候选框框架
改革的候选框框架主要是通过将原图分割为S*S的网格,每个网格负责以该网格为中心的目标物体,例如图中第2列,第5行网格是狗的中心位置,就由这个网格负责检测出狗。主要是通过以该网格为中心,生成B个候选框来表示待测区域,其实这个网格与Faster RCNN中的锚点概念类似,都是在原图上选出一系列的处于中心位置的点或者网格,分别以这些点和网格为中心生成一些候选框来代替传统算法提取候选区域,当然在YOLO网络中候选框位置并不会真的生成,像RCNN系列那样讲生成的候选区域一个一个进行分类和回归的判定&#