Yolov3

最新推荐文章于 2024-09-04 00:10:59 发布

北京纯牛奶

最新推荐文章于 2024-09-04 00:10:59 发布

阅读量248

点赞数

分类专栏： yolo

本文链接：https://blog.csdn.net/qq_44666320/article/details/118149103

版权

yolo 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

YOLOv3没有太多的创新，主要是借鉴一些好的方案融合到YOLO里面。不过效果还是不错的，在保持速度优势的前提下，提升了预测精度，尤其是加强了对小物体的识别能力。

YOLO3主要的改进有：调整了网络结构；利用多尺度特征进行对象检测；对象分类用Logistic取代了softmax。

一、Yolov3网络架构

backbone：Darknet-53

backbone部分由Yolov2时期的Darknet-19进化至Darknet-53，加深了网络层数，引入了Resnet中的跨层加和操作。原文列举了Darknet-53与其他网络的对比：

Darknet-53处理速度每秒78张图，比Darknet-19慢不少，但是比同精度的ResNet快很多。Yolov3依然保持了高性能。

Yolov3网络结构全貌

yolo_v3作为yolo系列目前最新的算法，对之前的算法既有保留又有改进。先分析一下yolo_v3上保留的东西：

1.“分而治之”，从yolo_v1开始，yolo算法就是通过划分单元格来做检测，只是划分的数量不一样。

2.采用"leaky ReLU"作为激活函数。

3.端到端进行训练。一个loss function搞定训练，只需关注输入端和输出端。

4.从yolo_v2开始，yolo就用batch normalization作为正则化、加速收敛和避免过拟合的方法，把BN层和leaky relu层接到每一层卷积层之后。

5.多尺度训练。在速度和准确率之间tradeoff。想速度快点，可以牺牲准确率；想准确率高点儿，可以牺牲一点速度。

yolo每一代的提升很大一部分决定于backbone网络的提升，从v2的darknet-19到v3的darknet-53。yolo_v3还提供替换backbone——tiny darknet。要想性能牛叉，backbone可以用Darknet-53，要想轻量高速，可以用tiny-darknet。总之，yolo就是天生“灵活”，所以特别适合作为工程算法。

9种尺度的先验框（针对不同尺度大小的图片）

随着输出的特征图的数量和尺度的变化，先验框的尺寸也需要相应的调整。YOLO2已经开始采用K-means聚类得到先验框的尺寸，YOLO3延续了这种方法，为每种下采样尺度设定3种先验框，总共聚类出9种尺寸的先验框。在COCO数据集这9个先验框是：(10x13)，(16x30)，(33x23)，(30x61)，(62x45)，(59x119)，(116x90)，(156x198)，(373x326)。

分配上，在最小的13*13特征图上（有最大的感受野）应用较大的先验框(116x90)，(156x198)，(373x326)，适合检测较大的对象。中等的26*26特征图上（中等感受野）应用中等的先验框(30x61)，(62x45)，(59x119)，适合检测中等大小的对象。较大的52*52特征图上（较小的感受野）应用较小的先验框(10x13)，(16x30)，(33x23)，适合检测较小的对象。

感受一下9种先验框的尺寸，下图中蓝色框为聚类得到的先验框。黄色框式ground truth，红框是对象中心点所在的网格。

对象分类softmax改成logistic

预测对象类别时不使用softmax，改成使用logistic的输出进行预测。这样能够支持多标签对象（比如一个人有Woman 和 Person两个标签）。

concat操作与加和操作的区别：加和操作来源于ResNet思想，将输入的特征图，与输出特征图对应维度进行相加，即 y=f(x)+x ；而concat操作源于DenseNet网络的设计思路，将特征图按照通道维度直接进行拼接，例如8*8*16的特征图与8*8*16的特征图拼接后生成8*8*32的特征图。

darknet-19是不存在残差结构(resblock，从resnet上借鉴过来)的，和VGG是同类型的backbone(属于上一代CNN结构)，而darknet-53是可以和resnet-152正面刚的backbone。

参考文献，内容来源于以下链接，感谢博主，本作纯属作为一个知识点的记录

https://zhuanlan.zhihu.com/p/76802514

https://www.jianshu.com/p/d13ae1055302