YOLO v1笔记

最新推荐文章于 2023-11-23 10:29:43 发布

chiemon

最新推荐文章于 2023-11-23 10:29:43 发布

阅读量160

点赞数

本文链接：https://blog.csdn.net/ahxieqi/article/details/94229597

版权

2018 December 01 yolo, v1

YOLO v1 是 one-stage 的鼻祖，将目标检测看作为单一的回归问题，直接由图像像素优化得到物体边界位置和分类。

用 ImageNet 数据集做预训练(图片尺寸 224×224 )，做检测模型优化时对输入图片尺寸放大了两倍(图片尺寸 448×448 )。

S × S × (B ∗ [x, y, width, height, confidence] + C)

C：类的个数，其值为 $Pr\left ( Class_{i} Object \right )$ 表示存在的 object 的 grid cell 属于各个种类的概率。所以一个 grid cell 只能预测一种类别的 object。

在检测目标时，bbox class-specific confidence score

YOLO v1：7×7×(2x(4+1)＋20)

每个 grid 有 30 维，这 30 维中，8 维是回归 box 的坐标（B=2），2 维是 box 的 confidence，还有 20 维是类别。其中坐标的 x, y 用对应网格的 offset，w、h 用图像的 width 和 height 归一化到 0-1。

粗暴的对所有的项统一用 sum-squared error loss 进行优化。

$\mathbb { 1 } _ { i j } ^ { \text { obj } }$：表示第 i 个 cell 里的第 j 个 BBox 是否负责预测这个 object；在计算 loss 时，与 GT 的 IOU 最大的 BBox 负责预测；
$\mathbb { 1 } _ { i j } ^ { \text { noobj } }$：不含 object；
$\mathbb { 1 } _ { i } ^ { \text { obj } }$：判断是否有物体落在第 i 个 cell 中；如果 cell 中包含有物体的中心，就负责预测该类。
$\lambda _ { n o o b j } = 0.5$：防止 overpowering，背景框的数量要远大于前景框，不加以限制，confidence 的值将趋近于零；
$\lambda _ { c o o r d } = 5$：为什么这样取值，作者说得很模糊，意思是如果坐标框的系数和类别一样的话显然是不合理的，所以加大了对框的惩罚，但 YOLOv2 和 YOLOv3 改用全卷积网络后这个参数 s 就改为 1 了。
$\left[ \left( \sqrt { w _ { i } } - \sqrt { w } _ { i } \right) ^ { 2 } + \left( \sqrt { h _ { i } } - \sqrt { \overline { h } } _ { i } \right) ^ { 2 } \right]$：对宽高都进行开根是为了减少小偏差对小的 bbox 的影响。

小结

只有当 grid cell 中有 object 的时候才对 classification error 进行惩罚。
只有当某个 box predictor 对某个 ground truth box 负责的时候，才会对 box 的 coordinate error 进行惩罚，而对哪个 ground truth box 负责就看其预测值和 ground truth box 的 IoU 是不是在那个 cell 的所有 box 中最大。

YOLO v1 检测物体非常快。因为没有复杂的检测流程，YOLO 将目标检测重建为一个单一的回归问题，从图像像素直接到边界框坐标和分类概率，而且只预测 98 个框，YOLO 可以非常快的完成物体检测任务。YOLO 在 Titan X 的 GPU 上能达到 45 FPS。Fast YOLO 检测速度可以达到 155 FPS。
YOLO 可以很好的避免背景错误，其它物体检测算法使用了滑窗或 region proposal，分类器只能得到图像的局部信息。YOLO 在训练和测试时，由于最后进行回归之前接了 4096 全连接，所以每一个 Grid cell 对应的预测结果都相当于使用了全图的上下文信息，从而不容易在背景上预测出错误的物体信息。和 Fast-R-CNN 相比，YOLO 的背景错误不到 Fast-R-CNN 的一半。
YOLO 可以学到更泛化的特征。当 YOLO 在自然图像上做训练，在艺术作品上做测试时，YOLO 表现的性能比 DPM、R-CNN 等之前的物体检测系统要好很多。因为 YOLO 可以学习到高度泛化的特征，从而迁移到其他领域。