YOLO v1原理与代码解读

论文 https://arxiv.org/pdf/1506.02640.pdf

代码 https://github.com/hizhangp/yolo_tensorflow

基本原理

将输入图片分成S\times S个网格,如果物体的中心位于某个网格中,这个网格就负责检测该物体。

每个网格预测B个bounding boxes和confidence, confidence=Pr\left ( Object \right )*IOU_{pred}^{truth},即confidence描述的是该box含有object的置信度以及该box位置的准确度。

每个bounding box包含5个预测值,x,y,w,h,confidence,即预测框的中心坐标、宽高以及置信度(网络实际输出中心坐标和宽高并不是实际结果,需要进行转换,后面会细讲)。

每个网格还预测C个类别条件概率Pr(Class_{i}|Object),即某个网格有物体的情况下该物体属于类别i的概率。不管一个网格预测几个box,都只预测一组类别概率。

论文在PASCAL VOC集上训练,输入为448\times448,取S=7,B=2,C=20。

网络结构

网络由24个卷积层和两个全连接层组成,网络最终输出为7\times7\times30的tensor,其中30=20+2\times5即20个类别、2个bounding box、每个box预测 x,y,w,h,confidence 5个值。

Loss函数

其中\mathbb{I}_{i}^{obj}表示网格i负责object的预测(即object的中心点位于网格i内),\mathbb{I}_{ij}^{obj}表示网格i的第j的box负责对object的预测

首先看最后一行的分类loss

# class_loss
class_delta = response * (predict_classes - classes)  # (45,7,7,20) 乘以response是因为存在对象的网格才计入误差
class_loss = tf.reduce_mean(tf.reduce_sum(tf.square(class_delta), axis=[1, 2, 3]),
                            name='class_loss') * self.class_scale  # (45,7,7,20)->(45,)->()

其中reponse就是\mathbb{I}_{i}^{obj},shape为(batch_size, 7, 7, 1),即7\times 7的网格中负责预测某个物体的网格值为1,其余为0。predict_classes和classes的shape都为(batch_size, 7, 7, 20),分别是网络预测的分类输出和ground truth的分类标签。class_scale是分类loss的权重,论文里是1,这个代码里是2。

第三行是含object的box的置信度loss

# object_loss
object_delta = object_mask * (predict_scales - iou_predict_truth)  
object_loss = tf.reduce_mean(tf.reduce_sum(tf.square(object_delta), axis=[1, 2, 3]),
                             name='object_loss') * self.object_scale

其中object_mask就是\mathbb{I}_{ij}^{obj},iou_predict_truth是预测box和gt box的iou

iou_predict_truth = self.calc_iou(predict_boxes_tran, boxes)  # (45,7,7,2)
object_mask = tf.reduce_max(iou_predict_truth, axis=3, keep_dims=True)  # (45,7,7,1)
object_mask = tf.cast((iou_predict_truth >= object_mask), tf.float32) * response  # (45,7,7,2)

前面说过response是\mathbb{I}_{i}^{obj},即含object的网格。这里object_mask是含object的网格中具体负责预测object的那个box,即找到含object的网格里和ground truth的iou最大的那个box。前面说过置信度的表达式如下confidence=Pr\left ( Object \right )*IOU_{pred}^{truth},既描述某个网格内有没有object同时又描述具体的box输出位置准不准,某个网格内有物体则Pr\left ( Object \right )=1,因此这里置信度的target就是iou_predict_truth。object_sclae是权重值为1。

第四行是不含object的box的置信度loss

noobject_mask = tf.ones_like(object_mask, dtype=tf.float32) - object_mask
noobject_delta = noobject_mask * predict_scales  # noobject_mask * (predict_scales - 0)
noobject_loss = tf.reduce_mean(tf.reduce_sum(tf.square(noobject_delta), axis=[1, 2, 3]),
                               name='noobject_loss') * self.noobject_scale

这里不含object的target置信度为0

第一行和第二行分别是预测框中心点坐标和宽高的loss

首先需要注意的是网络输出的2个box的位置信息x,y,w,h的具体含义,其中x,y是将448\times448的输入划分成7\times7的网格后box的中心距离所在网格左上角的横坐标和纵坐标,划分成7\times7网格后每个网格大小实际应该是64\times64,但是这里将每个网格归一化成1\times1大小,则x,y的取值范围为[0, 1)w,h则是box的宽高相对于448\times448的输入归一化后并开方的结果。

 因此在计算中心和宽高loss时网络的输出和target要保持一致,下面代码中boxes是归一化后的gt box的中心点坐标和宽高,通过如下代码转化成了网络输出box的格式,其中cell_size=7,offset和offset_tran分别是7\times 7的网格中每个网格的横坐标和纵坐标索引,如上图中标XY的网格是从左到右第3个,从上到下第2个。

boxes_tran = tf.stack([boxes[..., 0] * self.cell_size - offset,
                       boxes[..., 1] * self.cell_size - offset_tran,
                       tf.sqrt(boxes[..., 2]),
                       tf.sqrt(boxes[..., 3])], axis=-1)

 中心点和宽高的loss如下

# coord_loss
coord_mask = tf.expand_dims(object_mask, 4)  # (45,7,7,2,1)
boxes_delta = coord_mask * (predict_boxes - boxes_tran)
coord_loss = tf.reduce_mean(tf.reduce_sum(tf.square(boxes_delta), axis=[1, 2, 3, 4]),
                            name='coord_loss') * self.coord_scale

参考

https://zhuanlan.zhihu.com/p/89143061

https://luckmoonlight.github.io/2018/11/28/yoloV1yolov2yoloV3/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
需要学习Windows系统YOLOv4的同学请前往《Windows版YOLOv4目标检测实战:原理与源码解析》,课程链接 https://edu.csdn.net/course/detail/29865【为什么要学习这门课】 Linux创始人Linus Torvalds有一句名言:Talk is cheap. Show me the code. 冗谈不够,放码过来!  代码阅读是从基础到提高的必由之路。尤其对深度学习,许多框架隐藏了神经网络底层的实现,只能在上层调包使用,对其内部原理很难认识清晰,不利于进一步优化和创新。YOLOv4是最近推出的基于深度学习的端到端实时目标检测方法。YOLOv4的实现darknet是使用C语言开发的轻型开源深度学习框架,依赖少,可移植性好,可以作为很好的代码阅读案例,让我们深入探究其实现原理。【课程内容与收获】 本课程将解析YOLOv4的实现原理和源码,具体内容包括:- YOLOv4目标检测原理- 神经网络及darknet的C语言实现,尤其是反向传播的梯度求解和误差计算- 代码阅读工具及方法- 深度学习计算的利器:BLAS和GEMM- GPU的CUDA编程方法及在darknet的应用- YOLOv4的程序流程- YOLOv4各层及关键技术的源码解析本课程将提供注释后的darknet的源码程序文件。【相关课程】 除本课程《YOLOv4目标检测:原理与源码解析》外,本人推出了有关YOLOv4目标检测的系列课程,包括:《YOLOv4目标检测实战:训练自己的数据集》《YOLOv4-tiny目标检测实战:训练自己的数据集》《YOLOv4目标检测实战:人脸口罩佩戴检测》《YOLOv4目标检测实战:中国交通标志识别》建议先学习一门YOLOv4实战课程,对YOLOv4的使用方法了解以后再学习本课程。【YOLOv4网络模型架构图】 下图由白勇老师绘制  
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

00000cj

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值