YOLO v1原理与代码解读

最新推荐文章于 2024-06-08 23:49:02 发布

00000cj

最新推荐文章于 2024-06-08 23:49:02 发布

阅读量297

点赞数

分类专栏： Object Detection YOLO

本文链接：https://blog.csdn.net/ooooocj/article/details/109520410

版权

Object Detection 同时被 2 个专栏收录

43 篇文章 3 订阅

订阅专栏

YOLO

7 篇文章 0 订阅

订阅专栏

论文 https://arxiv.org/pdf/1506.02640.pdf

代码 https://github.com/hizhangp/yolo_tensorflow

基本原理

将输入图片分成 $S\times S$ 个网格，如果物体的中心位于某个网格中，这个网格就负责检测该物体。

每个网格预测B个bounding boxes和confidence， $confidence=Pr\left ( Object \right )*IOU_{pred}^{truth}$ ，即confidence描述的是该box含有object的置信度以及该box位置的准确度。

每个bounding box包含5个预测值， x,y,w,h,confidence ，即预测框的中心坐标、宽高以及置信度（网络实际输出中心坐标和宽高并不是实际结果，需要进行转换，后面会细讲）。

每个网格还预测C个类别条件概率 $Pr(Class_{i}|Object)$ ，即某个网格有物体的情况下该物体属于类别的概率。不管一个网格预测几个box，都只预测一组类别概率。

论文在PASCAL VOC集上训练，输入为448 $\times$ 448，取S=7，B=2，C=20。

网络结构

网络由24个卷积层和两个全连接层组成，网络最终输出为7 $\times$ 7 $\times$ 30的tensor，其中30=20+2 $\times$ 5即20个类别、2个bounding box、每个box预测 x,y,w,h,confidence 5个值。

Loss函数

其中 $\mathbb{I}_{i}^{obj}$ 表示网格负责 object 的预测（即 object 的中心点位于网格内）， $\mathbb{I}_{ij}^{obj}$ 表示网格的第的box负责对 object 的预测

首先看最后一行的分类loss

# class_loss
class_delta = response * (predict_classes - classes)  # (45,7,7,20) 乘以response是因为存在对象的网格才计入误差
class_loss = tf.reduce_mean(tf.reduce_sum(tf.square(class_delta), axis=[1, 2, 3]),
                            name='class_loss') * self.class_scale  # (45,7,7,20)->(45,)->()

其中reponse就是 $\mathbb{I}_{i}^{obj}$ ，shape为(batch_size, 7, 7, 1)，即 $7\times 7$ 的网格中负责预测某个物体的网格值为1，其余为0。predict_classes和classes的shape都为(batch_size, 7, 7, 20)，分别是网络预测的分类输出和ground truth的分类标签。class_scale是分类loss的权重，论文里是1，这个代码里是2。

第三行是含 object 的box的置信度loss

# object_loss
object_delta = object_mask * (predict_scales - iou_predict_truth)  
object_loss = tf.reduce_mean(tf.reduce_sum(tf.square(object_delta), axis=[1, 2, 3]),
                             name='object_loss') * self.object_scale

其中object_mask就是 $\mathbb{I}_{ij}^{obj}$ ，iou_predict_truth是预测box和gt box的iou

iou_predict_truth = self.calc_iou(predict_boxes_tran, boxes)  # (45,7,7,2)
object_mask = tf.reduce_max(iou_predict_truth, axis=3, keep_dims=True)  # (45,7,7,1)
object_mask = tf.cast((iou_predict_truth >= object_mask), tf.float32) * response  # (45,7,7,2)

前面说过response是 $\mathbb{I}_{i}^{obj}$ ，即含 object 的网格。这里object_mask是含 object 的网格中具体负责预测 object 的那个box，即找到含 object 的网格里和ground truth的iou最大的那个box。前面说过置信度的表达式如下 $confidence=Pr\left ( Object \right )*IOU_{pred}^{truth}$ ，既描述某个网格内有没有 object 同时又描述具体的box输出位置准不准，某个网格内有物体则 $Pr\left ( Object \right )=1$ ，因此这里置信度的target就是iou_predict_truth。object_sclae是权重值为1。

第四行是不含 object 的box的置信度loss

noobject_mask = tf.ones_like(object_mask, dtype=tf.float32) - object_mask
noobject_delta = noobject_mask * predict_scales  # noobject_mask * (predict_scales - 0)
noobject_loss = tf.reduce_mean(tf.reduce_sum(tf.square(noobject_delta), axis=[1, 2, 3]),
                               name='noobject_loss') * self.noobject_scale

这里不含 object 的target置信度为0

第一行和第二行分别是预测框中心点坐标和宽高的loss

首先需要注意的是网络输出的2个box的位置信息的具体含义，其中是将448 $\times$ 448的输入划分成7 $\times$ 7的网格后box的中心距离所在网格左上角的横坐标和纵坐标，划分成7 $\times$ 7网格后每个网格大小实际应该是64 $\times$ 64，但是这里将每个网格归一化成1 $\times$ 1大小，则的取值范围为。则是box的宽高相对于448 $\times$ 448的输入归一化后并开方的结果。

因此在计算中心和宽高loss时网络的输出和target要保持一致，下面代码中boxes是归一化后的gt box的中心点坐标和宽高，通过如下代码转化成了网络输出box的格式，其中cell_size=7，offset和offset_tran分别是 $7\times 7$ 的网格中每个网格的横坐标和纵坐标索引，如上图中标XY的网格是从左到右第3个，从上到下第2个。

boxes_tran = tf.stack([boxes[..., 0] * self.cell_size - offset,
                       boxes[..., 1] * self.cell_size - offset_tran,
                       tf.sqrt(boxes[..., 2]),
                       tf.sqrt(boxes[..., 3])], axis=-1)

中心点和宽高的loss如下

# coord_loss
coord_mask = tf.expand_dims(object_mask, 4)  # (45,7,7,2,1)
boxes_delta = coord_mask * (predict_boxes - boxes_tran)
coord_loss = tf.reduce_mean(tf.reduce_sum(tf.square(boxes_delta), axis=[1, 2, 3, 4]),
                            name='coord_loss') * self.coord_scale

参考

https://zhuanlan.zhihu.com/p/89143061

https://luckmoonlight.github.io/2018/11/28/yoloV1yolov2yoloV3/

00000cj

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
YOLO v1原理与代码解读

将输入图片分成个网格，如果物体的中心位于某个网格中，这个网格就负责检测该物体。每个网格预测B个bounding boxes和confidence，，即confidence描述的是该box含有object的置信度以及该box预测的有多准确。每个bounding box包含5个预测值，，表示box的中心相对于网格的的距离，是相对于整张图的宽高。每个网格还预测C个类别条件概率，即该网格有物体的情况下属于类别的概率。不管一个网格预测几个boxes，都只预测一组类别概率。...
复制链接

扫一扫