yolov3

_天明_

于 2019-12-09 11:58:14 发布

阅读量132

点赞数

分类专栏：目标检测

原文链接：https://blog.csdn.net/u014380165/article/details/80202337

版权

目标检测专栏收录该内容

13 篇文章 1 订阅

订阅专栏

YOLO v3主要有几个改进点，还是非常赞的：
1、类别预测方面主要是将原来的单标签分类改进为多标签分类，因此网络结构上就将原来用于单标签多分类的softmax层换成用于多标签多分类的逻辑回归层。首先说明一下为什么要做这样的修改，原来分类网络中的softmax层都是假设一张图像或一个object只属于一个类别，但是在一些复杂场景下，一个object可能属于多个类，比如你的类别中有woman和person这两个类，那么如果一张图像中有一个woman，那么你检测的结果中类别标签就要同时有woman和person两个类，这就是多标签分类，需要用逻辑回归层来对每个类别做二分类。

2、采用多个scale融合的方式做预测。原来的YOLO v2有一个层叫：passthrough layer，假设最后提取的feature map的size是1313，那么这个层的作用就是将前面一层的2626的feature map和本层的1313的feature map进行连接，有点像ResNet。当时这么操作也是为了加强YOLO算法对小目标检测的精确度。这个思想在YOLO v3中得到了进一步加强，在YOLO v3中采用类似FPN的upsample和融合做法（最后融合了3个scale，其他两个scale的大小分别是2626和5252），在多个scale的feature map上做检测，对于小目标的检测效果提升还是比较明显的。虽然在YOLO v3中每个grid cell预测3个bounding box，看起来比YOLO v2中每个grid cell预测5个bounding box要少，其实不是！因为YOLO v3采用了多个scale的特征融合，所以boundign box的数量要比之前多很多，以输入图像为416416为例：（1313+2626+5252）3和13135相比哪个更多应该很清晰了。

3、关于bounding box的初始尺寸还是采用YOLO v2中的k-means聚类的方式来做，不过数量变了。这种先验知识对于bounding box的初始化帮助还是很大的，毕竟过多的bounding box虽然对于效果来说有保障，但是对于算法速度影响还是比较大的。作者在COCO数据集上得到的9种聚类结果：(1013); (1630); (3323); (3061); (6245); (59119); (11690); (156198); (373326)，这应该是按照输入图像的尺寸是416416计算得到的。

4、网络结构（Darknet-53）一方面基本采用全卷积（YOLO v2中采用pooling层做feature map的sample，这里都换成卷积层来做了），另一方面引入了residual结构（YOLO v2中还是类似VGG那样直筒型的网络结构，层数太多训起来会有梯度问题，所以Darknet-19也就19层，因此得益于ResNet的residual结构，训深层网络难度大大减小，因此这里可以将网络做到53层，精度提升比较明显）。Darknet-53只是特征提取层，源码中只使用了pooling层前面的卷积层来提取特征，因此multi-scale的特征融合和预测支路并没有在该网络结构中体现。

其他方面基本上和YOLO v2没有太大差别。

_天明_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
yolov3

YOLO v3主要有几个改进点，还是非常赞的：1、类别预测方面主要是将原来的单标签分类改进为多标签分类，因此网络结构上就将原来用于单标签多分类的softmax层换成用于多标签多分类的逻辑回归层。首先说明一下为什么要做这样的修改，原来分类网络中的softmax层都是假设一张图像或一个object只属于一个类别，但是在一些复杂场景下，一个object可能属于多个类，比如你的类别中有woman和per...
复制链接

扫一扫