YOLOv1
1506.02640:You Only Look Once: Unified, Real-Time Object Detection
原文链接: https://arxiv.org/abs/1506.02640
摘要:
YOLO模型仅对完成图片进行一次评估,就可以预测物体的边框和类别的概率。模型的处理速度快,基础YOLO模型在1秒内处理45帧,FASTYOLO模型1秒内可以处理155帧,并且和其他最新成果相比具有两倍的准确率。但是YOLO模型的边框定位错误较高,但是对于背景的错误预测率很低。
文章贡献:
(1)YOLO模型的速度非常快,网络中只有一条简单的流水线,可以用于实时检测。
(2)YOLO模型通过处理整张图片进行预测,对于背景的识别很精确。
(3)YOLO模型高度概括了物体的特征。
模型设计:
首先将输入图片切割成S*S的网格,对于每个网格用来预测物体的锚框和confidence score。Confidence的定义是Pr(Classi|Object) *Pr(Object)*IOU,Pr(Classi|Object) 是物体属于第i类的概率,Pr(Object)的取值由物体是否在框中决定,IOU是锚框和ground truth的交并比。
a. 网络设计
由GoogLeNet启发,网络由24个卷积层和2个全连接层组成。FAST YOLO则是将卷积层的数量减少至9个。
b. 训练
作者采用的激活函数是leaky RELU,当x<0时,y=0.1x。
在训练中,如果图片中的某一网格的不包含任何物体,这使得这些格子的置信度分数趋于0,经常会overpowering那些包含目标的格子的梯度,会导致模型不稳定。解决这个问题的方法是增加来自边界框坐标预测的损失值,然后降低不包含目标的边界框的损失值。设置的权重分别为5和0.5。
损失函数: