yolov3

潇洒哥611

已于 2024-05-17 16:56:34 修改

阅读量175

点赞数

文章标签： YOLO

于 2023-11-19 16:18:20 首次发布

本文链接：https://blog.csdn.net/qq_72985002/article/details/134449556

版权

直观理解yolov2

train

（1）在ImageNet训练Draknet-19，模型输入为224×224，共160个epochs

（2）将网络的输入调整为448×448,继续在ImageNet数据集上finetune分类模型，训练10 个epochs。参数除了epoch和learning rate改变外，其他都没变，这里learning rate改为0.001。

（3）修改Darknet-19分类模型为检测模型，并在监测数据集上继续finetune模型

detect

416x416进去，darknet——19分类网络提取特征，最后得到13x13x1024（理解为13X13的小图片有1024个），用这1024个特征来预测K（1+C+4）个结果值。（再次：这个4是预测的偏移量）

直观理解yolov3

train

darknet-19里加入了ResNet残差连接，改进之后的模型叫Darknet-53。之后继续finetune模型

detect

输入的是416×416的三通道图像，yolov3会产生三个尺度：13×13、26×26、52×52，也对应着grid cell个数。每个grid cell生成3个anchor框，通过与gt的IOU计算选一个anchor产生预测框去拟合真实框。输出三个不同尺寸的张量，但最后都是255，比如S * S * 255，（255含义:三组anchor里xywh+置信度+分类数(COCO数据集80个分类)，所以就是3 * (80+5)。）( 52 * 52 + 26 * 26 +13 * 13) * 3 = 10647个预测框。之后NMS输出值。

流程：

第一步：从特征获取预测结果
1、yolov3提取多特征层进行目标检测，一共提取三个特征层，三个特征层位于主干特征提取网络darknet53的不同位置，分别位于中间层，中下层，底层，三个特征层的shape分别为(52,52,256)、(26,26,512)、(13,13,1024)

2、第三个特征层(13,13,1024)进行5次卷积处理（为了特征提取），处理完后一部分用于卷积+上采样UpSampling（变成26X26大小的特征图），另一部分用于输出对应预测结果（13,13,225），Conv2D 3×3和Conv2D1×1两个卷积起通道调整的作用，调整成输出需要的大小。

基于coco的数据集就会有80种类别，最后的维度应该为3x(80+5)=255

3、卷积+上采样后得到(26,26,256)的特征层，然后与Darknet53网络中的特征层(26,26,512)进行拼接，得到的shape为(26,26,768)，再进行5次卷积，处理完后一部分用于卷积上采样，另一部分用于输出对应的预测结果(26,26,225)，Conv2D 3×3和Conv2D1×1同上为通道调整

4、之后再将3中卷积+上采样的特征层与shape为(52,52,256)的特征层拼接（Concat）,再进行卷积得到shape为(52,52,128)的特征层，最后再Conv2D 3×3和Conv2D1×1两个卷积，得到(52,52,225)特征层

最后图中有三个红框原因就是有些物体相对在图中较大，就用13×13检测，物体在图中比较小，就会归为52×52来检测

预测结果的解码
预测结果解码原因：预测结果(红框)并不对应着最终的预测框在图片上的位置，还需要解码）

yolov3的预测原理是分别将整幅图分为13x13、26x26、52x52的网格，每个网络点负责一个区域的检测。解码过程就是计算得出最后显示的边界框的坐标bx,by，以及宽高bw,bh，这样就得出了边界框的位置，计算过程如图（b–为bounding box 缩写）

(cx,cy)：该点所在网格的左上角距离最左上角相差的格子数。
(pw,ph)：先验框的边长
(tx,ty)：目标中心点相对于该点所在网格左上角的偏移量
(tw,th)：预测边框的宽和高
σ：激活函数，论文作者用的是sigmoid函数，[0,1]之间概率，之所以用sigmoid取代之前版本的softmax，原因是softmax会扩大最大类别概率值而抑制其他类别概率值，图解如下

注：最终得到的边框坐标值是bx,by,bw,bh.而网络学习目标是tx，ty，tw，th。
另外cy向下此处为正向

第三步：对预测出的边界框得分排序与非极大抑制筛选
得分排序与非极大抑制筛选

这步就是将最大概率的框筛选出来
1、取出每一类得分大于一定阈值的框和得分进行排序。
2、利用框的位置和得分进行非极大抑制。最后可以得出概率最大的边界框，也就是最后显示出的框
如下几幅图，一步步筛选得到最终边界框

找到第一个

找到第二个

2.1 基础网络 Darknet-53

由于没有使用全连接层，该网络可以对应任意大小的输入图像。

此外，池化层也没有出现在YOLOv3当中，取而代之的是将卷积层的stride设为2来达到下采样。同时将尺度不变特征传送到下一层。

作者在3条预测支路采用的也是全卷积的结构，其中最后一个卷积层的卷积核个数是255，是针对COCO数据集的80类：3*(80+4+1)=255，3表示一个grid cell包含3个bounding box，4表示框的4个坐标信息，1表示objectness score。

先上流程图，该图是基于voc数据集讲解的，voc数据集有20个类别，最下面红框中(13，13，75)表示预测结果的shape，实际上是13,13,3×25,表示有13*13的网格，每个网格有3个先验框（又称锚框，anchors，先验框下面有解释），每个先验框有25个参数(20个类别+5个参数)，这5个参数分别是x_offset、y_offset、height、width与置信度confidence，用这3个框去试探，试探是否框中有物体，如果有，就会把这个物体给框起来。如果是基于coco的数据集就会有80种类别，最后的维度应该为3x(80+5)=255，最上面两个预测结果shape同理。

Q：合并（加入残差啊思想）的目的：

在每一种维度输出之前还有一个分支就是和下一路进行concat拼接(上一层进行上采样后拼接)。这样加入残差思想，保留各种维度特征(底层像素+高层语义)。三个尺度就可以预测各种不同大小的物体了。

2.2 YOLOV3中的边框回归

YOLOv3的改进
在YOLOv3 中，利用逻辑回归来预测每个边界框的客观性分数( object score )，也就是YOLOv1 论文中说的confidence :

● 正样本：如果当前预测的包围框比之前其他的任何包围框更好的与ground truth对象重合，那它的置信度就是 1。

● 忽略样本：如果当前预测的包围框不是最好的，但它和 ground truth对象重合了一定的阈值（这里是0.5）以上，神经网络会忽略这个预测。

● 负样本: 若bounding box 没有与任一ground truth对象对应，那它的置信度就是 0。

Q1：为什么YOLOv3要将正样本confidence score设置为1?

置信度意味着该预测框是或者不是一个真实物体，是一个二分类，所以标签是1、0更加合理。并且在学习小物体时，有很大程度会影响IOU。如果像YOLOv1使用bounding box与ground truth对象的IOU作为confidence，那么confidence score始终很小，无法有效学习，导致检测的Recall不高。

Q2：为什么存在忽略样本?

由于YOLOV3采用了多尺度的特征图进行检测，而不同尺度的特征图之间会有重合检测的部分。例如检测一个物体时，在训练时它被分配到的检测框是第一个特征图的第三个bounding box，IOU为0.98，此时恰好第二个特征图的第一个bounding box与该ground truth对象的IOU为0.95，也检测到了该ground truth对象，如果此时给其confidence score强行打0，网络学习的效果会不理想。

与Faster-RCNN 不同，YOLOv3 仅对每一个真实物件分配一个anchor box，若没有分配到anchor box 的真实物件，便不会有坐标误差，仅会具有object score 误差。

若某个物体Ground truth的中心位置的坐标落入到某个格子，那么这个格子就负责检测中心落在该栅格中的物体。三次检测，每次对应的感受野不同，32倍降采样的感受野最大（13x13），适合检测大的目标，每个cell的三个anchor boxes为(116 ,90),(156 ,198)，(373 ,326)。16倍（26x26）适合一般大小的物体，anchor boxes为(30,61)， (62,45)，(59,119)。8倍的感受野最小（52x52），适合检测小目标，因此anchor boxes为(10,13)，(16,30)，(33,23)。所以当输入为416×416时，实际总共有(52×52+26×26+13×13)×3=10647个proposal boxes。

带有维度先验和定位预测的边界框。我们边界框的宽和高以作为离聚类中心的位移，并使用 Sigmoid 函数预测边界框相对于滤波器应用位置的中心坐标。

公式中为何使用sigmoid函数呢？

YOLO不预测边界框中心的绝对坐标，它预测的是偏移量，预测的结果通过一个sigmoid函数，迫使输出的值在0~1之间。例如，若对中心的预测是(0.4,0.7)，左上角坐标是(6,6)，那么中心位于13×13特征地图上的(6.4,6.7)。若预测的x，y坐标大于1，比如(1.2,0.7)，则中心位于(7.2,6.7)。注意现在中心位于图像的第7排第8列单元格，这打破了YOLO背后的理论，因为如果假设原区域负责预测某个目标，目标的中心必须位于这个区域中，而不是位于此区域旁边的其他网格里。为解决这个问题，输出是通过一个sigmoid函数传递的，该函数在0到1的范围内缩放输出，有效地将中心保持在预测的网格中。

其实图像在输入之前是按照图像的长边缩放为416，短边根据比例缩放(图像不会变形扭曲)，然后再对短边的两侧填充至416，这样就保证了输入图像是416*416的。

2.3 多尺度预测：更好地对应不同大小的目标物体

每种尺度预测3个box, anchor的设计方式仍然使用聚类,得到9个聚类中心,将其按照大小均分给3个尺度.

尺度1: 在基础网络之后添加一些卷积层再输出box信息.
尺度2: 从尺度1中的倒数第二层的卷积层上采样(x2)再与最后一个16x16大小的特征图相加,再次通过多个卷积后输出box信息.相比尺度1变大两倍.
尺度3: 与尺度2类似,使用了32x32大小的特征图.

通常一幅图像包含各种不同的物体，并且有大有小。比较理想的是一次就可以将所有大小的物体同时检测出来。因此，网络必须具备能够“看到”不同大小的物体的能力。并且网络越深，特征图就会越小，所以越往后小的物体也就越难检测出来。SSD中的做法是，在不同深度的feature map获得后，直接进行目标检测，这样小的物体会在相对较大的feature map中被检测出来，而大的物体会在相对较小的feature map被检测出来，从而达到对应不同scale的物体的目的。

然而在实际的feature map中，深度不同所对应的feature map包含的信息就不是绝对相同的。举例说明，随着网络深度的加深，浅层的feature map中主要包含低级的信息（物体边缘，颜色，初级位置信息等），深层的feature map中包含高等信息（例如物体的语义信息：狗，猫，汽车等等）。因此在不同级别的feature map中进行检测，听起来好像可以对应不同的scale，但是实际上精度并没有期待的那么高。

（这是讲SSD的原理，虽然想象很美好，可以对应不同的scale，但效果并没有那么好。）

在YOLOv3中，这一点是通过采用FPN结构来提高对应多重scale的精度的。

(a) Featurized image pyramid: 这种方法最直观。首先对于一幅图像建立图像金字塔，不同级别的金字塔图像被输入到对应的网络当中，用于不同scale物体的检测。但这样做的结果就是每个级别的金字塔都需要进行一次处理，速度很慢。

(b) Single feature map: 检测只在最后一个feature map阶段进行，这个结构无法检测不同大小的物体。

(c) Pyramidal feature hierarchy: 对不同深度的feature map分别进行目标检测。SSD中采用的便是这样的结构。每一个feature map获得的信息仅来源于之前的层，之后的层的特征信息无法获取并加以利用。

(d) Feature Pyramid Network 与(c)很接近，但有一点不同的是，当前层的feature map会对未来层的feature map进行上采样，并加以利用。这是一个有跨越性的设计。因为有了这样一个结构，当前的feature map就可以获得“未来”层的信息，这样的话低阶特征与高阶特征就有机融合起来了，提升检测精度。

（d）Feature Pyramid Network就是yolov3的要点了，对未来层的feature map上采样，和当前层的feature map混合在一起。那么这个混合形成的新层就对高等信息和低等信息做了一个整合。那么对于底层的feature map做预测就把高等信息和低等信息都做了应用，提高了精度。