You Only Look Once: Unified, Real-Time Object Detection
1、 论文要解决什么问题?
论文对于当前目标检测的速度和精度问题提出了YOLO模型,以期能提升目标检测的速度和精度。
2、 论文采用了什么方法?
相较于当前调整分类器得到目标检测模型,论文将目标检测定义为边界框和相关类概率的回归问题。并且将单个神经网络在一个评估中直接从完整图像预测边界框和类概率。由于整个检测流水线是一个单一的网络,因此可以直接根据检测性能进行端到端的优化。
3、 论文达到什么效果?
论文提出了相较于其他目标检测模型,检测速度更快,检测精度更高的YOLO模型。
总结
1、论文提出/采用什么方法,细节是什么?
论文所提出的模型采用了端到端的训练方法,对于图像进行训练和检测。模型的检测过程是一个回归问题。
具体的,首先将输入图像分成S×S的网格单元,如果目标的中心点在某个网格单元中,则该网格单元负责检测该目标。紧接着,每个单元格预测B个边界框,并且每个框的相应置信度,即该边界框中包含目标的可能性有多高,以及它认为盒子预测的准确性有多高。形式化的,置信度被定义为:
P
r
(
O
b
j
e
c
t
)
×
I
O
U
(1)
{Pr(Object) \times IOU} \tag{1}
Pr(Object)×IOU(1)如果某个单元格中没有要检测的目标,则该单元格的置信度为0。另外,每个边界框包含5个元素
x
,
y
,
w
,
h
x,y,w,h
x,y,w,h 和置信度。
(
x
,
y
)
(x,y)
(x,y)表示边界框相对于单元格的中心坐标,
w
w
w 和
h
h
h代表边界框相对于整张图片的宽和高。置信度预测表示预测框与任何基本事实框之间的
I
O
U
IOU
IOU。在实际操作时会将图像宽度和高度进行归一化边界操作,以便它们介于0和1之间。
此外,每个单元格还预测C个条件概率,对应着边界框中目标属于
C
l
a
s
s
i
Class_i
Classi 的条件概率
P
r
(
C
l
a
s
s
i
∣
O
b
j
e
c
t
)
Pr(Class_i|Object)
Pr(Classi∣Object)。在测试时,我们将条件类概率和各个边界框的置信度预测相乘:
P
r
(
C
l
a
s
s
i
∣
O
b
j
e
c
t
)
∗
P
r
(
O
b
j
e
c
t
)
∗
I
O
U
=
P
r
(
C
l
a
s
s
i
)
∗
I
O
U
(2)
Pr(Class_i|Object) * Pr(Object) * IOU = Pr(Class_i) * IOU\tag{2}
Pr(Classi∣Object)∗Pr(Object)∗IOU=Pr(Classi)∗IOU(2) 模型检测过程如下图:
模型的检测过程像一个回归问题,它将图像划分为
S
×
S
S×S
S×S网格,并为每个网格单元预测
B
B
B 个边界框、这些框的置信度和
C
C
C 类概率。这些预测被编码为
S
×
S
×
(
B
∗
5
+
C
)
S×S×(B ∗ 5+C)
S×S×(B∗5+C)的张量。
2、论文要解决什么问题/任务,其启发点或借鉴之处在哪?
论文解决的是目标检测中检测速度的问题,相较于Fast R-CNN等将分类器调整为检测器的方法,YOLO模型直接从图像预测边界框和类别概率。启发点在将目标检测转化为了回归问题,即通过回归问题使模型预测的边界框和目标的真实框尽可能的一致,即二者之间的IOU尽可能的小。
3、论文方法达到什么效果?
第一、论文中的模型有着十分快的检测速度。
第二、在进行预测时,YOLO对图像进行全局推理,从而比Fast R-CNN有着更少的错误。
第三、YOLO可以学习图像中更广义的特征表示。这使得检测具的鲁棒性更强。