本文链接：https://blog.csdn.net/lj2043656094/article/details/132213612

这篇文章所介绍的模型是YOLOv2，是在YOLO的基础上进行了改进。他可以实现实时的检测，并且可以预测9000多个类别。文章主要从Better，Faster，Stronger三方面来进行阐述。

Better

Yolo存在大量的定位错误，并且他的recall很低，于是模型主要关注保持精度的同时提升recall和定位的准确性。模型使用了很多目前已经存在的技术，并且对他们进行了实验分析。

Batch norm

在YOLO模型的每层卷积后面添加一层Batch norm，满足了正则化的需求，增加了性能，同时使用这个结构使得在不会过拟合的前提下删除了dropout。

High Resolution Classifier

YOLO在224*224分辨率训练分类网络，然后将分辨率上升到448*448用来检测。与他不同的是，YOLOv2直接使用448*448的分辨率对分类网络进行训练，然后微调生成的网络进行检测，这使得网络能够更好的处理高分辨率的图像，提升了模型的性能。

Convolutional With Anchor Boxes

YOLO直接在卷积特征提取器上使用全连接层来进行边界框坐标的预测。YOLOv2去掉了全连接层，并且使用像Fast-RCNN一样的anchor box来预测边界框。还去掉了一层池化层，使得卷积层的输出分辨率更高。我们输入分辨率为416*416的图片而不是448*448，这样使得特征图由奇数个位置，因此只有一个中心单元，对于对象，尤其是大型对象来说更加有利于预测。和YOLO一样对图片进行32倍下采样，于是得到了13*13的特征图。仍然会计算预测框与真实框之间的IOU和预测该类的条件概率。

Dimension Clusters

YOLO的anchor box的维度是手动人工挑选的，YOLOv2使用的是K均值算法来选择好的先验。但是使用标准的K均值算法会导致大的anchor会比小的anchor产生更多的误差，我们希望产生更好的IOU，这与anchor的大小无关，所以我们采用下面的距离度量公式并使K=5：

Direct location prediction

YOLO在早期迭代过程中很不稳点，大部分的不稳定都来源于预测框的（x，y）位置.。在区域建议网络当中，模型需要很长的时间来稳定预测合理的偏移量。YOLOv2遵循YOLO的方法并且预测网格单元位置的坐标，使用逻辑激活将其限制在0到1之间。这个网络会在每个单元格预测5个边界框，并且为每个框预测tx, ty , tw, th, to五个坐标。

cx，cy是cell的坐标，pw，ph是边界框先验的高和宽。

Fine-Grained Features

修改后的YOLO产生的是13*13的特征图，这对于大的物体是有效的，而小的物体需要更细腻的特征来进行检测，所以采用一个passthrough layer来从之前的层获得一个26*26分辨率的特征图。passthrough layer将高分辨率和低分辨率的特征图通过堆叠到不同的通道连接起来。

Multi-Scale Training

YOLOv2只是用了卷积和池化，所以输入大小是可以改变的，所以我们希望它能够处理不同分辨率的图片。所以在训练的时候会每10个epoch之后改变图片的分辨率，因为模型会将图片下采样32倍，所以我们会使用32的整数倍{320, 352, ..., 608}。

Faster

YOLOv2使用Googlenet作为基本的特征提取器，相较于VGG，他的计算量大大减小了，而性能只下降了一点。

Darknet-19

论文提出了一种新的基于YOLOv2的分类器。主要使用3*3的filter，在每层池化之后通道数加倍。使用全局平均池化来进行预测和一个1*1的filter来压缩3*3卷积的特征表示。使用batch normalization来稳定模型，加速收敛，并使模型正则化。这个模型叫做Darknet-19，由19层卷积和5层最大池化组成。

Stronger

论文提出了一种分类和检测数据联合训练的机制，使用为检测而标记的图像来学习检测特有的信息，如边界框坐标的预测和常见类别的分类。然后使用只带有类别标签的图像来扩展可以检测到的类别数量。在训练的时候会混合分类和检测数据集。如果见到检测的图像，那么可以使用完整的YOLOv2体系的反向传播；如果见到的是分类图像，那么只会对分类的部分进行反向传播。

Hierarchical classification

我们使用wordnet来构建概念以及他们之间的关系。Norfolk terrier”和“Yorkshire terrier”都是“terrier”的上下音，前者是“猎狗”的一种，后者是“狗”的一种，后者是“犬科动物”的一种，等等。Wordnet的结构是一个向图，我们没有构建完整的图，而是构建了一个树。为了使用WordTree进行分类，我们在每个节点上预测该同义词集中每个下标的概率的条件概率。例如，在“terrier”节点上，我们预测: