目标检测算法YOLO3论文解读

最新推荐文章于 2023-03-03 11:47:09 发布

纸上得来终觉浅～

最新推荐文章于 2023-03-03 11:47:09 发布

阅读量1.8k

点赞数 3

分类专栏：图像处理 paper阅读文章标签： YOLO3

本文链接：https://blog.csdn.net/qq_32172681/article/details/99595621

版权

图像处理同时被 2 个专栏收录

56 篇文章 8 订阅

订阅专栏

paper阅读

21 篇文章 3 订阅

订阅专栏

论文题目：YOLOv3: An Incremental Improvement

论文地址：https://arxiv.org/abs/1804.02767

代码地址：https://github.com/aloyschen/tensorflow-yolo3

一、论文解读

1、bounding box prediction（边界框预测）

YOLO2预测bounding boxes是使用anchor boxes，这个网络为每个bounding box预测了4个坐标：tx、ty、tw、th，用（cx，cy）表示当前网格左上角坐标偏移图像左上角坐标的距离，用pw，ph表示先验框（piror）的宽和高，可以得到下面式子：

在训练期间，使用平方和误差（sum of squared error loss）。真值用表示，梯度就是真值减去预测值：。

YOLO3用logistic regression为每个bounding box预测一个分数。算法只为每个真值匹配一个最优的先验框。

2、多标签预测

每个bounding box可能含有多类物体，也就是多标签预测。所以用logistic（sigmoid）代替softmax，因为softmax表示每个框只有一类对象，而sigmoid可以预测多标签分类。那么如何用sigmoid来做多标签分类呢？其实就是针对logits中每个分类计算的结果分别作用一个sigmoid分类器，分别判定样本是否属于某个类别。在训练期间，使用二元交叉熵损失函数进行类别预测。

sigmoid多标签预测参考博客：https://blog.csdn.net/qq_32172681/article/details/97936956。

3、结合不同卷积层的特征，提取更细粒度的信息，做多尺度预测

YOLO3用3个不同的尺度预测boxes，网络采用类似特征金字塔的概念，从不同的尺度提取特征。在原先的基本特征提取器上新增了几个卷积层，最后用一个3维的张量表示bounding box、objectness和class predictions。在COCO中，在每个尺度上预测3个boxes，因此张量为N*N*[3*(4+1+80)]，分别对应4个bounding boxes、1个objectness prediction和80个class predictions。接下来，从前面的两个图层中提取特征图，并将其向上采样2倍。从早期的网络中获取一个特征图，并使用串联将其与上采样特征合并。这种方法允许我们从上采样的特性中获得更有意义的语义信息，并从早期的特性图中获得更细粒度的信息。然后再添加一些卷积层来处理这个组合的特征图，并最终预测一个类似的张量，尽管现在的大小是原来的两倍。再次执行相同的设计，以预测最终框的尺寸。在过去，YOLO难以预测小的物体，现在通过多尺度预测，明显改善。

4、网络结构（DarkNet53 = Darknet19 + ResNet）