论文笔记：YOLOv2

最新推荐文章于 2024-08-12 16:47:01 发布

龙骑士尹志华

最新推荐文章于 2024-08-12 16:47:01 发布

阅读量457

点赞数

本文链接：https://blog.csdn.net/stezio/article/details/81748346

版权

YOLOv2通过引入anchor、batch normalization、高分辨率分类器等改进，提升了目标检测的性能。文章详细介绍了YOLOv2与YOLO的区别，包括更好的定位、更快的训练速度和更强的检测能力。作者提出了联合训练算法，允许模型在分类数据和检测数据上同时训练，扩大了检测系统的类别范围，最终实现了YOLO9000，能够检测9000多种目标类别。

摘要由CSDN通过智能技术生成

作者认为，目标检测框架变得愈发快速和准确，然而都局限于一个小的目标集。而与分类和标记等其他任务的数据集相比，当前目标检测数据集显得相对有限。因此，想要检测可以与目标分类的级别规模相当，而提出了一种新方法来利用已经拥有的大量分类数据，并使用它来扩大当前检测系统的范围。该方法使用目标分类的层次视图，允许不同的数据集合在一起。同时提出联合训练算法，可以在检测数据和分类数据上训练目标检测器。

通过这种方法训练YOLO9000，一个可以检测超过9000不同的目标类别的实时目标检测器。作者通过改进YOLO产生YOLOv2，然后训练来自ImageNet和COCO的超过9000个类的模型产生YOLO9000。

对于YOLOv2与YOLO 的对比，作者提出了三个特点：better，faster，stronger。论文中也分为这三个特点分别进行阐述。

better方面：

YOLO于Faster RCNN相比存在大量的定位误差。与基于候选区域的方法相比，YOLO存在着较低的recall。因此作者提出在保持classification accuracy的同时提升recall和localization。

Batch Normalization：

首先对网络中每一层添加batch normalization。这样网络就不需要每层学习数据的分布，从而加速收敛，提升了2%的mAP。BN还有助于规范化模型，这样在不会过拟合的情况下可以舍弃dropout。（对于为什么加入了BN就可以舍弃dropout见下图）

High Resolution Classifier：

由于于训练一般都是在ImageNet上完成（输入图片为224*224），而YOLOv1在训练分类网络时采用224*224作为输入，在detection的时候采用448*448。这意味着网络在切换到检测模型的时候还要同时使应新的分辨率。在这里做了改进，在预训练过程中在ImageNet上用10个epoch以448*448的分辨率调整分类网络，最后在检测数据集上fine tune。实验表明可以增加4%的mAP。

这里所谓分类模型和检测模型的转换，分辨率的转换见cfg文件：

Convolutional With Anchor Box：

YOLOv1在卷积特征提取器的顶层直接用全连接层预测bounding box的坐标。Faster RCNN中，没有直接预测坐标，而是使用hand-picked prior预测坐标。通过使用卷积层，Faster RCNN中的RPN为anchor box预测offset和confidence。由于预测层是卷积的，而RPN在网络的每一处预测offset。预测offset而不是坐标简化了问题，并使得网络更容易学习。

YOLOv2则采用了这种思想，引入anchor。首先去除卷积层和最后一层池化层，使得卷积神经网络的输出拥有更高的分辨率。同时缩减网络，用416*416的输入图片取代原来的448*448。这样做是使得特征图有奇数大小的宽和高，如此便可有一个cell作为中心cell。作者发现大的物体更趋向于占据图片的中心，因此用一个的cell而不是4个cell来表示图片的中心更好。YOLOv2以32为因子进行下采样，因此得到的输出是13*13（416/32）。

由于引入了anchor，YOLOv2减弱了空间位置分类预测机制，转而对每一个anchor预测class和objectness。与YOLOv1类似，objectness预测ground truth和proposed box的IOU，class预测已有一个object情况下各分类的条件概率。对于S*S的图像，YOLOv1中每个cell预测B个bounding box，C个类别概率（注意此处C与cell对应），则输出维度S*S*(B*5+C)。而YOLOv2中，C与anchor box对应，所以输出维度S*S*B*(C+5)。