YOLOv1原理详解---训练 & 测试

最新推荐文章于 2024-06-08 23:49:02 发布

喵酱ooo

最新推荐文章于 2024-06-08 23:49:02 发布

阅读量3.4k

点赞数 10

分类专栏：目标检测文章标签： YOLO原理

本文链接：https://blog.csdn.net/weixin_40092412/article/details/90731258

版权

YOLOv1原理

从论文到代码实现需要知道的具体处理~

1、优点：

fast，原因：将检测视作回归问题，没有复杂的网络传输过程（如R-CNN分为四个阶段：特征提取、候选框提取、分类、回归）。
【神经网络回归问题与分类问题在损失函数上的区别：回归问题可用平方损失函数，分类问题一般用softmax损失函数】
（可以理解为，要做回归问题则用平方损失，分类问题则用softmax损失，网络其他方面均一致？）
背景分类准，原因：对整张图片进行卷积等操作，可以推理图片全局而不是局部。
可迁移到其他领域，原因：学习目标的一般化表示？

2、单元检测：

将输入图片分成 $S * S$ 的cell，如果目标中心落入某个cell，该cell负责检测该目标？
每个cell预测 $B$ 个bounding boxes，每个bounding box有一个置信度 $c o n f i d e n c e$ ，如果某bounding box中没有目标，则 $c o n f i d e n c e = 0$ ，反之， $confidence = IOU_{pred}^{truth}$ 。
每个bounding box包含5个预测值， $x, y, w, h, c o n f i d e n c e$
每个cell预测一个类别，即输出 $Pr(Class_i | Object)$
假设一共C类，则网络输出： $S * S * (B * 5 + C)$
预测时，预测概率 = confidence * Pr(Class_i | Object)

1、原始图片和标签

输入图片：

【原始图片大小：width：960， height：530】
xml文件信息
目标类别：[‘airplane’,‘ship’,‘storage tank’,‘baseball diamond’,‘tennis court’,
‘basketball court’,‘ground track field’,‘harbor’,‘bridge’,‘vehicle’]

2、转化为训练用的图片和标签

图片转换：

标签转换：

首先需将该张图片中的每一个bounding box转化成 $confidence, x_1, y_1, x_2, y_2, Pr(Class_i | Object, i=1,...,C)]$

关注