YOLOV1与V3的（模型，loss要点详述）

最新推荐文章于 2024-08-16 15:32:34 发布

bo.qiu_xbw

最新推荐文章于 2024-08-16 15:32:34 发布

阅读量508

点赞数 1

分类专栏： 2020论文

本文链接：https://blog.csdn.net/qq_42738654/article/details/107896377

版权

2020论文专栏收录该内容

6 篇文章 0 订阅

订阅专栏

YOLOV1

正样本的选择：

目标中心点落在哪个grid上，然后计算这个grid的9个先验框（anchor）和目标真实位置的IOU值（直接计算，不考虑二者的中心位置），取IOU值最大的先验框和目标匹配。于是，找到的该grid中的该anchor 负责预测这个目标，其余的网格、anchor都不负责。

负样本的选择：

计算各个先验框和所有的目标ground truth之间的IOU，如果某先验框和图像中所有物体最大的IOU都小于阈值（一般0.5），那么就认为该先验框不含目标，记作负样本，其置信度应当为0

不参与计算部分

这部分虽然不负责预测对象，但IOU较大，可以认为包含了目标的一部分，不可简单当作负样本，所以这部分不参与误差计算。

LOSS

yolo算法将目标看成回归问题，采用sum-square函数，对不同的部分采用了不同的权重值。
由4部分构成：
1.x,y 均方误差
2.w，h均方误差
3.置信度loss（其实是否含有object误差）

这里其实有个很重要的思想，置信度有时是单纯的分类置信度，有时候可能是结合了iou（在yolo里面第一次见到），YOLO就是结合了IOU的置信度
**onfidence表示：cell预测的bounding box包含一个物体的置信度有多高并且该bounding box预测准确度有多大，用公式表示为：在这里插入图片描述

4.cls分类（yolo1用的是mse，这是p就是分类概率，也就是进过softmax输出的值）
在这里插入图片描述

yolo1的原理：

把网络分成sxs个网格（s通常为7），对于每一个网格要预测出B个边框，每个边框五个坐标(x,y,w,h)和一个分数（来预测这个边框和真是的边框有多接近），每个网格也会预测类别，所以一共有S × S × (B ∗ 5 + C) 个张量
在这里插入图片描述

在这里插入图片描述
这就是yolo的网络模型，对于卷积层和全连接层，采用Leaky ReLU激活函数。但是最后一层却采用线性激活函数，最后出来的是边界框的预测，之前说的是7x7的网格，那么最后出来的就是7x7x30，20类，2个置信度（判断有没有物体），两个框，一个框（x,y,w,h）

================================================================================================================================================================================

YOLOV3

Backbone去除了pooling与fc，全用卷积代替，用了darknet 53，总的来说就是conv+bn+leaky_relu，YOLO v3中采用类似FPN的upsample和融合做法（最后融合了3个scale，其他两个scale的大小分别是26×26和52×52），在多个scale的feature map上做检测。

1,y2和y3的深度都是255，边长的规律是13:26:52。yolo v3设定的是每个网格单元预测3个box，所以每个box需要有(x, y, w, h, confidence)五个基本参数，然后还要有80个类别的概率。所以3×(5 + 80) = 255。这个255就是这么来的。最后卷积核的channel是255。
YOLOV3将分类loss从v1的mse变成了cross-entropy，用了类似ssd的三个尺度作为输出的head。

网络结构图：
在这里插入图片描述

loss

还是四个loss。

CrossEntropyLoss()内部将input做了softmax后再与label进行交叉熵！BCEloss()内部啥也没干直接将input与label做了交叉熵！BCEWithLogitsLoss()内部将input做了sigmoid后再与label进行交叉熵！

在这里插入图片描述

https://blog.csdn.net/shengyan5515/article/details/84036734
https://blog.csdn.net/litt1e/article/details/88907542
https://blog.csdn.net/wqwqqwqw1231/article/details/90667046