YOLO现在有三个版本,每个版本相对于之前都有很大的进步,现总结如下。
YOLO
论文"YouOnlyLookOnce: Unified,Real-TimeObjectDetection":
这是最早的YOLO版本,当时提出来非常的新颖,因为整个YOLO做object detection只用了一个端到端的CNN,同时产生bounding box和class probability。
YOLO另外一个特点就是它的inference很快,文章中提到real-time中,YOLO可以在Titan X上做到45fps;在YOLO的fast模型中,甚至可以做到155fps。
YOLO将object detection这个问题转换为了从像素到bounding box的坐标和class probability的一个回归问题。
1 Unified Detection
YOLO将整幅image拆分成个方格,每个方格中有B个bounding box和confidence score,其中confidence的定义为:.
同时每个bounding box包含5个预测值:.其中代表的是bounding box的center距离每个方格的偏离。
同时每个方格(注意是方格不是bounding box)有一个class probability tensor:,最后通过这个计算每一个bounding box的probability:
在PASCAL VOC数据集上,采用的是的方式。
1.1 Network Design
文章参考了GoogLeNet的设计,但是没有使用Inception model,而是在的filter之前先增加一个reduce dimension的的filter。
基本的YOLO模型有24层卷积层