【论文阅读】YOLOv3-YOLOv3: An Incremental Improvement

最新推荐文章于 2022-03-21 17:55:19 发布

kabuto_hui

最新推荐文章于 2022-03-21 17:55:19 发布

阅读量623

点赞数

分类专栏：论文阅读从零开始-Machine Learning学习笔记文章标签：人工智能计算机视觉机器学习

本文链接：https://blog.csdn.net/kabuto_hui/article/details/105495380

版权

从零开始-Machine Learning学习笔记同时被 2 个专栏收录

45 篇文章 8 订阅

订阅专栏

论文阅读

17 篇文章 2 订阅

订阅专栏

文章目录

YOLOv3的论文相较于前两个版本，没有太大的改动，作者以一种实验报告的形式描述了YOLOv3的改进部分及实验结果，也非常坦率地公布了一些不太成功的实验。

1. 细节

1.1 Bounding boxes prediction

Bounding Boxes的预测与YOLOv2中类似，都是预测相较于cell左上角坐标的偏移量 $t_x, t_y)$ 和长宽的缩放量 $t_w,t_h)$ 。当然这些数据表示的都是相对位置，取值范围为[0,1]。除了这四个量之外，还为每个bounding box预测了一个Objectness score，表示该bounding box中是否存在一个待检测目标，如果一个bounding box prior(就是anchor box)与ground truth的IOU是最大的，那么这个值应该为1；如果其中某个bounding box prior与ground truth的IOU是不是最大的，但是又超过了某一个阈值(这里设置为0.5)，那么就忽略他的预测结果。因为在YOLO中，为每一个ground truth只分配一个bounding box prior的objectness score为1，这保证了如果一个bounding box prior没有分配到一个目标，那么他只会受到objectness的影响。

1.2 Class Prediction

在预测分类的时候，并没有采用softmax，而是独立的logistic分类器，采用的是binary cross entropy误差。
$H_p(q) = -\frac{1}{N}\sum_{i=1}^{N} y_ilog(\hat y_i) + (1-y_i)log(1 - \hat y_i)$

1.3 Predictions Across Scales

在最后的预测阶段，YOLOv3借鉴了特征金字塔网络(feature pyramid networks)，组合浅层网络输出的特征图。在YOLOv3中组合3种不同尺寸的特征图，并基于这些组合特征，增加了几层卷积层用于预测最后的结果，最后网络输出的tensor大小为：
$N * N * [3 * (4 + 1 + 80)]$
即每个cell预测3个bounding boxes，每个bounding boxes预测 $t_x, t_y,t_w,t_h,t_{obj})$ 和80个类别的概率分布。