AI大视觉(十一) | Yolo v3 如何进行训练?

本文来自公众号“AI大道理”。

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。

yolov3训练的loss是在特征层上进行求解的。

所以不管是预测值,还是真实值都要映射到特征层上。

这是一个双向奔赴的过程。

loss求解

(1)输入图片进行数据增强。

(2)将图片输入yolov3网络获得三个特征层的预测结果。

(3)三个有效特征层循环计算损失。

(4)反向传播进行训练。

由于YOLOv3将分类预测改为回归预测,分类损失函数便换成了二值交叉熵损失函数。

Loss 要计算:

  • 中心点的 Loss

  • 宽高的 Loss

  • 置信度的 Loss

  • 目标类别的 Loss

其中:

宽高w、h的loss使用均方差损失函数。

中心点的坐标x、y的loss、置信度c的loss和目标类别p的loss使用交叉熵损失函数。

解释:

对于目标类别obj 的loss,Logistic回归正好方差损失和交叉熵损失的求导形式是一样的,都是output - label的形式。也就是说,本来这里应该用(二元分类的)交叉损失熵的,不过作者在代码里直接用方差损失代替了。

对于中心点的坐标x、y的 loss,DarkNet官方实现的YOLOV3里面坐标损失用的是BCE Loss,而YOLOV3官方论文里面说的是MSE Loss。

对于宽高w、h的loss是MSE Loss,因为没有经过sigmoid,而x、y是BCE Loss因为经过了sigmoid。

预测值

(1)三个有效特征层进行循环计算损失。

(2)获得特征层的宽高,先验框尺寸缩放到特征层大小。

利用原来图片尺寸和特征层的比例进行缩放。

(3)特征层获得预测结果,即先验框的调整参数。

(4)将预测结果解码与真实框计算IOU,重合程度大的预测结果则忽略。

因为这是属于预测比较准确的框,作为负样本不合适。

(5)预测框的参数与真实框的参数在特征层上进行比较求loss。

真实值

(1)真实框循环,取出其中一个真实框。

.xml:

使用labelImg软件进行标注得到.xml文件,两个目标是使用左上角和右下角的格式的。

.xml->.txt:

label:

经过转化,中心点以及宽和高的标注信息,并且进行归一化,四个值即是归一化后保留4位有效数字的x,y,w,h。

(2)原始的真实框数值是0-1之间,需要乘上先验框的宽高,才可以转化成特征层的形式,才可以把它和先验框进行对比(暂时不是与预测框对比)

label*13:

(3)计算真实框在特征层上的中心点、宽高,计算真实框属于特征层的哪个网格。

13*13个网格中的哪个,就是根据真实框的位置确定这个真实框由哪个网格负责预测。

网格的左上角负责预测,所以只要中心点坐标去掉小数点保留整数的数值就是了。

如上面的两个真实框在13*13的特征层中由(8,8)与(9,7)这两个网格负责预测。

当然,每个网格有三个先验框。

(4)真实框与属于这个特征层的3个先验框计算交并比,与真实框重合度最大的先验框就是这个真实框的来源框。

(5)编码得到真实框的参数。

与解码公式相反。

其中:

中心偏差真实参数=真实框中心-网格左上角

宽高真实参数=log(真实框的宽高/先验框的宽高)

解码公式:

编码公式:

(6)真实框的参数与预测框的参数在特征层上进行比较求loss。

(7)继续取出真实框,进行相同操作。

总结

yolov3训练的loss是在特征层上进行求解的。

所以不管是预测值,还是真实值都要映射到特征层上。

这是一个双向奔赴的过程。


 

   

 ——————

浅谈则止,细致入微AI大道理

扫描下方“AI大道理”,选择“关注”公众号

—————————————————————

  

 —————————————————————

投稿吧   | 留言吧

  • 4
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Linux创始人LinusTorvalds有一句名言:Talk is cheap, Show me the code.(冗谈不够,放码过来!)。 代码阅读是从入门到提高的必由之路。尤其对深度学习,许多框架隐藏了神经网络底层的实现,只能在上层调包使用,对其内部原理很难认识清晰,不利于进一步优化和创新。  YOLOv3是一种基于深度学习的端到端实时目标检测方法,以速度快见长。YOLOv3的实现Darknet是使用C语言开发的轻型开源深度学习框架,依赖少,可移植性好,可以作为很好的代码阅读案例,让我们深入探究其实现原理。  本课程将解析YOLOv3的实现原理和源码,具体内容包括: YOLO目标检测原理  神经网络及Darknet的C语言实现,尤其是反向传播的梯度求解和误差计算 代码阅读工具及方法 深度学习计算的利器:BLAS和GEMM GPU的CUDA编程方法及在Darknet的应用 YOLOv3的程序流程及各层的源码解析本课程将提供注释后的Darknet的源码程序文件。  除本课程《YOLOv3目标检测:原理与源码解析》外,本人推出了有关YOLOv3目标检测的系列课程,包括:   《YOLOv3目标检测实战:训练自己的数据集》  《YOLOv3目标检测实战:交通标志识别》  《YOLOv3目标检测:原理与源码解析》  《YOLOv3目标检测:网络模型改进方法》 建议先学习课程《YOLOv3目标检测实战:训练自己的数据集》或课程《YOLOv3目标检测实战:交通标志识别》,对YOLOv3的使用方法了解以后再学习本课程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值