目标检测:YOLOV3 An Incremental Improvement

原始内容来源于:
https://blog.csdn.net/cdknight_happy/article/details/91793142
https://www.jianshu.com/p/d13ae1055302
https://blog.csdn.net/litt1e/article/details/88907542
https://blog.csdn.net/leviopku/article/details/82660381
包括整理!

YOLOV3:An Incremental Improvement

yolov3在yolo的基础上融合了一些改进,在保持速度优势的前提下,提升了预测精度,尤其是加强了对小物体的识别能力

1 核心内容

yolov3的网络结构如下所示:
在这里插入图片描述
DBL: 代码中的Darknetconv2d_BN_Leaky,是yolo_v3的基本组件,即卷积+BN+Leaky relu。
resn:n代表数字,有res1,res2, … ,res8等等,表示这个res_block里含有多少个res_unit。这是yolo_v3的大组件,yolo_v3开始借鉴了ResNet的残差结构,使用这种结构可以让网络结构更深(从v2的darknet-19上升到v3的darknet-53,前者没有残差结构)。
concat:张量拼接。将darknet中间层和后面的某一层的上采样进行拼接。拼接的操作和残差层add的操作是不一样的,拼接会扩充张量的维度,而add只是直接相加不会导致张量维度的改变。

yolov3主要的改进有:调整骨干网络结构;利用多尺度特征进行对象检测;对象分类用Logistic取代了softmax。下面将结合yolov3的网络结构进行一一说明。

(1)调整骨干网络结构

yolov3的骨干网络从yolov2的darknet-19改变到darknet-53(含有53个卷积层),借鉴了残差网络residual network,在一些层之间设置了跳远连接(shortcut connections),darknet-53的网络结构如下所示。
在这里插入图片描述
Darknet-53网络采用256 * 256 * 3作为输入,最左侧那一列的1、2、8等数字表示多少个重复的残差组件。每个残差组件有两个卷积层和一个跳远连接,示意图如下。
在这里插入图片描述
yolov3使用了darknet-53的前面的52层(没有全连接层),是一个全卷积网络,大量使用残差的跳远连接,并且为了降低池化带来的梯度负面效果,直接摒弃了pooling,使用conv的stride 2进行降采样

darknet-53相对于ResNet-152和ResNet-101,不仅在分类精度上差不多,计算速度还比ResNet-152和ResNet-101快。此外,yolo_v3还提供替换backbone的tiny darknet。要想性能好,backbone可以用Darknet-53,要想轻量高速,可以用tiny-darknet。
在这里插入图片描述
(2)利用多尺度特征进行对象检测

为了加强小目标检测的精确度,yolov2曾采用passthrough结构来检测细粒度特征,yolov3中采用FPN的upsample和融合做法,在3个不同尺度的特征图上进行目标检测。

结合yolov3的网络结构图看,多尺度以3条预测支路y1,y2,y3实现,全部采用全卷积结构,边长规律是13:26:52,深度都是255,每个网格包括3个box,每个box包括4个坐标信息、1个置信度、80个类别,所以3*(4+1+80)=255。

y1是输入图像的32倍降采样,特征图的shape是13 * 13 * 255。由于下采样倍数高,感受野比较大,适合检测图像中尺寸比较大的目标。

y2是输入图像的16倍降采样,特征图的shape是26 * 26*255,实现是将32倍降采样的特征图进行步长为2的上采样,再与16倍降采样的特征图拼接,融合了浅层特征和深沉特征。具有中等尺度的感受野,适合检测中等尺度的目标。

y3是输入图像的8倍降采样,特征图的shape是52 * 52*255,实现是将16倍降采样的特征图进行步长为2的上采样,再与8倍降采样的特征图拼接,融合了浅层特征和深沉特征。感受野最小,适合检测小尺寸的目标。

9种尺度的先验框

随着输出的特征图的数量和尺度的变化,先验框的尺寸也需要相应的调整。YOLO2已经开始采用K-means聚类得到先验框的尺寸,YOLO3延续了这种方法,为每种下采样尺度设定3种先验框,总共聚类出9种尺寸的先验框。在COCO数据集这9个先验框是:(10x13),(16x30),(33x23),(30x61),(62x45),(59x119),(116x90),(156x198),(373x326)。

三次检测的感受野不同,32倍降采样的感受野最大,适合检测大目标,应用较大先验框(116x90),(156x198),(373x326)。16倍降采样的感受野中等,适合检测中等目标,应用中等先验框(30x61),(62x45),(59x119)。8倍降采样的感受野最小,适合检测小目标,应用较小先验框(10x13),(16x30),(33x23)。所以当输入为416×416时,实际总共有(52×52+26×26+13×13)×3=10647个box。
在这里插入图片描述
感受一下9种先验框的尺寸,下图中蓝色框为聚类得到的先验框,黄色框为ground truth,红框为目标中心点所在的网格。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(3)对象分类softmax改成logistic

每个框使用多标签分类预测边界框可能包含的目标的类别。我们不使用softmax,因为我们发现它不能导致良好的性能,而是使用独立的logistic分类器。在训练期间,我们使用二元交叉熵损失进行类预测。

当我们迁移到更复杂的领域(如Open Images Dataset)时,此方案会有所帮助。在此数据集中有许多重叠标签(即女人和人)。使用softmax假设每个box只有一个类,而通常不是这种情况。多标签方法可以更好地模拟数据。(softmax需要类别是互斥的,而多类别logistic回归则没有该要求)。

logistic多分类简单理解是对每种类别使用logistic二分类,即要么是这种类别要么不是,然后遍历所有类别,得到所有类别的得分,选取大于阈值的类别。

(4)Bounding Box回归

遵循YOLO9000的做法,我们的系统使用维度聚类获取的anchor box来预测边界框。网络为每个anchor box预测四个坐标,分别为 t x , t y , t w , t h t_x,t_y,t_w,t_h tx

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值