You Only Look Once Unified, Real-Time Object Dete
1.1 Background
在YOLOv1 提出之前,R-CNN系列算法在目标检测领域独占鳌头。R-CNN系列检测精度高,但是由于其网络结构是双阶段(two-stage)的特点,使得它的检测速度不能满足实时性.
2016年,yolo团队提出了一种单阶段(one-stage)的目标检测网络,实时检测的速度比较快,每秒可以处理45帧的图像。
1.2 Base idea
YOLO的核心思想是将目标检测问题转换成回归问题,利用一整个图像作为网络结构的输入
经过24个卷积层和2个全连接层,得到bounding box(边界框)的位置和所属类别
我们将图片划分为S X S个小网格,每个网格预测B个bounding boxs,以及这个边界框的置信度,和C的分类概率,
这会被编写成
S ∗ S ∗ ( B ∗ 5 + C ) S*S*(B*5+C) S∗S∗(B∗5+C)
λ c o o r d ∑ i = 0 s 2 ∑ j = 0 B I i j o b j [ ( x i − x i ) 2 + ( y i − y i ) 2 ] \lambda _{coord} \sum_{i=0}^{s^{2}}\sum_{j = 0}^{B}\mathbb{I}_{ij}^{obj}\left [ \left ( x_{i}- x_{i}\right )^2+\left ( y_{i}-y_{i} \right )^2\right ] λcoordi=0∑s2j=0∑BIijobj[(xi−xi)2+(yi−yi)2]
1.3 Conclusion
- yolo的优点
- 网络简单,容易构建
- 速度快,实时性比较好
- 检测性能好,背景误差小
- yolo的缺点
- 对图像上的小目标检测性能不佳
- 对临近物体及很小的群体,检测效果不好