目标检测之解读YOLOv1论文、源码及背后逻辑

本文链接：https://blog.csdn.net/a535652512/article/details/105954916

YOLO实现目标检测的步骤

将一幅图像分成 7x7 个单元格（grid cell），如果某个物体（ object ）的中心落在这个单元格中，则这个单元格就负责预测这个物体。如图所示：
每个单元格用2 个 bounding box去预测这个物体的真实框（ground truth）
yolo 通过CNN去预测7x7 个单元格的2 个 bounding box的中心点坐标（x,y）、宽高（w,h）、物体分类、confidence（这个值代表了所预测的bounding box中是否含有object和若有object，这个object预测得有多准的两重信息），如图所示：

注：该网络用leaky ReLU，代替ReLU，leaky并不会让负数直接为0，而是乘以一个很小的系数(恒定)，保留负数输出，但衰减负数输出。
上面是结构图yolo_v1结构图，通过结构图可以轻易知道前向传播的计算过程，是很便于读者理解的。v1的输出是一个7x7x30的张量，7x7表示把输入图片划分位7x7的网格，每一个小单元的另一个维度等于30。30=(2*5+20)。代表能预测2个框的5个参数(x,y,w,h,confidence)和20个种类。每个单元格预测一个属于类别 $class_{i}$ 的条件概率 $Pr(Classi∣Object)Pr(Class_{i} | Object)$ 。要注意的是，属于一个网格的2个bboxs共享一套条件概率值，因为这两个box都是为了一个单元格服务，最终预测出一个物体类别。
每个bounding box的confidence和各个类别预测概率相乘，得到每一个bounding box关于所有类别的class-specific confidence scores（其形状为20 x 1），其中的一个bounding box计算过程如下：
将所有bounding boxes中class-specific confidence scores低于阈值的设为0（最后所有scores为0的将不会画出该bounding box）
对每一个类别的scores从大到小排序
对每一个类别根据scores进行非极大值抑制：拿到score最大的bounding box与score比它小的bounding boxes计算iou，如果大于阈值，则将他们设置该类别的scores为0，之后对不为0的bounding box执行这一操作。6~8步如下所示：

在这里插入图片描述

对每一个bounding box只要有一个class-specific confidence score不为0，就画出这个框，并标出scores最大的类别名。

损失函数

论文中的公式如下：

在这里插入图片描述

$S^2$ 表示网格数，在这里是7x7。B表示每个单元格预测框的个数，这里是2。

$l^{obj}_{ij}$ 取值为0和1，即单元格内是否有目标的中心。

$λ_{coord} = 5$

$λ_{noobj} = 0.5$

结合网络输出，理解损失函数，如下所示：

在这里插入图片描述

损失函数设计细节：

YOLOv1对位置误差，confidence误差，分类误差均使用了均方差作为损失函数。
三部分误差损失（位置误差，confidence误差，分类误差），在损失函数中所占权重不一样，位置误差权重系数最大，为5。
大部分bounding box中都没有物体，积少成多，造成loss的第2部分与第3部分的不平衡，因此，损失函数中对没有物体中心的单元格中预测的bounding box的confidence误差给予小的权重系数，为0.5。
有目标的单元格中预测的bbox的confidence损失和分类损失，权重系数正常为1。
confidence损失，分为obj和no_obj两种情况计算，对于no_obj（该单元格不包含物体中心）并且当检测框和所有真实框的iou都低于0.5。
对于不包含某个物体的中心点的单元格，confidence的真实值则为0，如果包含，confidence的真实值则等于 bounding box与真实框的IOU。
计算confidence损失的目的，想惩罚那些附近没有物体（和所有真实框的iou都低于0.5）而confidence很高的bounding box和那些包含物体中心，confidence却很小的bounding box。
由于相同的位置误差对大目标和小目标的影响是不同的，相同的偏差对于小目标来说影响要比大目标大，故作者选择将预测的bounding box的w,h先取其平方根，再求均方差损失。
一个网格预测2个bounding box，在计算损失函数的时候，只取与ground truth box中IoU大的那个预测框来计算损失。
分类误差，只有当单元格中含有目标时才计算，没有目标的单元格的分类误差不计算在内。