目标检测：YOLOV3 An Incremental Improvement

最新推荐文章于 2024-04-24 15:53:38 发布

huangyiping_dream

最新推荐文章于 2024-04-24 15:53:38 发布

阅读量826

点赞数

分类专栏：目标检测

本文链接：https://blog.csdn.net/huangyiping12345/article/details/103731075

版权

原始内容来源于：
https://blog.csdn.net/cdknight_happy/article/details/91793142
https://www.jianshu.com/p/d13ae1055302
https://blog.csdn.net/litt1e/article/details/88907542
https://blog.csdn.net/leviopku/article/details/82660381
包括整理！

YOLOV3:An Incremental Improvement

yolov3在yolo的基础上融合了一些改进，在保持速度优势的前提下，提升了预测精度，尤其是加强了对小物体的识别能力。

1 核心内容

yolov3的网络结构如下所示：
在这里插入图片描述
DBL: 代码中的Darknetconv2d_BN_Leaky，是yolo_v3的基本组件，即卷积+BN+Leaky relu。
resn：n代表数字，有res1，res2, … ,res8等等，表示这个res_block里含有多少个res_unit。这是yolo_v3的大组件，yolo_v3开始借鉴了ResNet的残差结构，使用这种结构可以让网络结构更深(从v2的darknet-19上升到v3的darknet-53，前者没有残差结构)。
concat：张量拼接。将darknet中间层和后面的某一层的上采样进行拼接。拼接的操作和残差层add的操作是不一样的，拼接会扩充张量的维度，而add只是直接相加不会导致张量维度的改变。

yolov3主要的改进有：调整骨干网络结构；利用多尺度特征进行对象检测；对象分类用Logistic取代了softmax。下面将结合yolov3的网络结构进行一一说明。

(1)调整骨干网络结构

yolov3的骨干网络从yolov2的darknet-19改变到darknet-53（含有53个卷积层），借鉴了残差网络residual network，在一些层之间设置了跳远连接（shortcut connections），darknet-53的网络结构如下所示。
在这里插入图片描述
Darknet-53网络采用256 * 256 * 3作为输入，最左侧那一列的1、2、8等数字表示多少个重复的残差组件。每个残差组件有两个卷积层和一个跳远连接，示意图如下。

yolov3使用了darknet-53的前面的52层（没有全连接层），是一个全卷积网络，大量使用残差的跳远连接，并且为了降低池化带来的梯度负面效果，直接摒弃了pooling，使用conv的stride 2进行降采样。

darknet-53相对于ResNet-152和ResNet-101，不仅在分类精度上差不多，计算速度还比ResNet-152和ResNet-101快。此外，yolo_v3还提供替换backbone的tiny darknet。要想性能好，backbone可以用Darknet-53，要想轻量高速，可以用tiny-darknet。
在这里插入图片描述
(2)利用多尺度特征进行对象检测

为了加强小目标检测的精确度，yolov2曾采用passthrough结构来检测细粒度特征，yolov3中采用FPN的upsample和融合做法，在3个不同尺度的特征图上进行目标检测。

结合yolov3的网络结构图看，多尺度以3条预测支路y1,y2,y3实现，全部采用全卷积结构，边长规律是13:26:52，深度都是255，每个网格包括3个box，每个box包括4个坐标信息、1个置信度、80个类别，所以3*(4+1+80)=255。

y1是输入图像的32倍降采样，特征图的shape是13 * 13 * 255。由于下采样倍数高，感受野比较大，适合检测图像中尺寸比较大的目标。

y2是输入图像的16倍降采样，特征图的shape是26 * 26*255，实现是将32倍降采样的特征图进行步长为2的上采样，再与16倍降采样的特征图拼接，融合了浅层特征和深沉特征。具有中等尺度的感受野，适合检测中等尺度的目标。

y3是输入图像的8倍降采样，特征图的shape是52 * 52*255，实现是将16倍降采样的特征图进行步长为2的上采样，再与8倍降采样的特征图拼接，融合了浅层特征和深沉特征。感受野最小，适合检测小尺寸的目标。

9种尺度的先验框

随着输出的特征图的数量和尺度的变化，先验框的尺寸也需要相应的调整。YOLO2已经开始采用K-means聚类得到先验框的尺寸，YOLO3延续了这种方法，为每种下采样尺度设定3种先验框，总共聚类出9种尺寸的先验框。在COCO数据集这9个先验框是：(10x13)，(16x30)，(33x23)，(30x61)，(62x45)，(59x119)，(116x90)，(156x198)，(373x326)。

三次检测的感受野不同，32倍降采样的感受野最大，适合检测大目标，应用较大先验框(116x90)，(156x198)，(373x326)。16倍降采样的感受野中等，适合检测中等目标，应用中等先验框(30x61)，(62x45)，(59x119)。8倍降采样的感受野最小，适合检测小目标，应用较小先验框(10x13)，(16x30)，(33x23)。所以当输入为416×416时，实际总共有（52×52+26×26+13×13）×3=10647个box。
在这里插入图片描述
感受一下9种先验框的尺寸，下图中蓝色框为聚类得到的先验框，黄色框为ground truth，红框为目标中心点所在的网格。

(3)对象分类softmax改成logistic

每个框使用多标签分类预测边界框可能包含的目标的类别。我们不使用softmax，因为我们发现它不能导致良好的性能，而是使用独立的logistic分类器。在训练期间，我们使用二元交叉熵损失进行类预测。

当我们迁移到更复杂的领域（如Open Images Dataset）时，此方案会有所帮助。在此数据集中有许多重叠标签（即女人和人）。使用softmax假设每个box只有一个类，而通常不是这种情况。多标签方法可以更好地模拟数据。(softmax需要类别是互斥的，而多类别logistic回归则没有该要求)。

logistic多分类简单理解是对每种类别使用logistic二分类，即要么是这种类别要么不是，然后遍历所有类别，得到所有类别的得分，选取大于阈值的类别。

(4)Bounding Box回归

遵循YOLO9000的做法，我们的系统使用维度聚类获取的anchor box来预测边界框。网络为每个anchor box预测四个坐标，分别为 $t_x,t_y,t_w,t_h$

最低0.47元/天解锁文章

huangyiping_dream

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
目标检测：YOLOV3 An Incremental Improvement

原始内容来源于：https://blog.csdn.net/cdknight_happy/article/details/91793142https://www.jianshu.com/p/d13ae1055302https://blog.csdn.net/litt1e/article/details/88907542https://blog.csdn.net/leviopku/artic...
复制链接

扫一扫