YOLO9000: Better, Faster, Stronger论文解读

最新推荐文章于 2024-10-14 20:19:40 发布

Dear_林

最新推荐文章于 2024-10-14 20:19:40 发布

阅读量400

点赞数

分类专栏： paper Deep Learning 文章标签：深度学习计算机视觉神经网络

本文链接：https://blog.csdn.net/Dear_learner/article/details/124430180

版权

YOLO9000在YOLOv2基础上进行了多方面的改进，包括引入批归一化提升精度和训练稳定性，使用高分辨率图像分类器和多尺度训练提高检测性能，采用先验框（Anchor Boxes）和聚类方法优化目标定位，以及通过分层分类实现数据集的联合训练。这些改进显著增强了模型的检测能力和泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：链接
代码：链接

一、简介

yolov2相对于v1版本，在继续保持处理速度的基础上，从预测更准确（Better），速度更快（Faster），识别对象更多（Stronger）三个方面做了改进，其中识别更多对象也就是扩展到能够检测9000种不同的对象，称之为yolo9000

论文中提出了一种新的联合训练方法——联合训练算法，这种训练是将两种不同的数据集混合在一起，使用一种分层的观点对物体进行分类，用分类数据集来扩充检测数据集，从而把两种不同的数据集混合在一起。

联合训练算法的基本思路：同时在检测数据集和分类数据集上训练物体检测器（Object Detectors ），用检测数据集的数据学习物体的准确位置，用分类数据集的数据来增加分类的类别量、提升健壮性。

YOLO9000就是使用联合训练算法训练出来的，他拥有9000类的分类信息，这些分类信息学习自ImageNet分类数据集，而物体位置检测则学习自COCO检测数据集。

YOLOv2相对于YOLOv1改进策略
在这里插入图片描述

二、YOLOv2网络改进

1、Batch Normalization(归一化)

mAP提升2.4%。

批归一化有助于解决反向传播过程中的梯度消失和梯度爆炸问题，降低对一些超参数（比如学习率、网络参数的大小范围、激活函数的选择）的敏感性，并且每个batch分别进行归一化的时候，起到了一定的正则化效果（YOLO2不再使用dropout），从而能够获得更好的收敛速度和收敛效果。

通常，一次训练会输入一批样本（batch）进入神经网络。批规一化在神经网络的每一层，在网络（线性变换）输出后和激活函数（非线性变换）之前增加一个批归一化层（BN），BN层进行如下变换：①对该批样本的各特征量（对于中间层来说，就是每一个神经元）分别进行归一化处理，分别使每个特征的数据分布变换为均值0，方差1。从而使得每一批训练样本在每一层都有类似的分布。这一变换不需要引入额外的参数。②对上一步的输出再做一次线性变换，假设上一步的输出为Z，则Z1=γZ + β。这里γ、β是可以训练的参数。增加这一变换是因为上一步骤中强制改变了特征数据的分布，可能影响了原有数据的信息表达能力。增加的线性变换使其有机会恢复其原本的信息。

2、High resolution classifer(高分辨率图像分类器)

mAP提升了3.7%。

图像分类的训练样本很多，而标注了边框的用于训练对象检测的样本相比而言就比较少了，因为标注边框的人工成本比较高。所以对象检测模型通常都先用图像分类样本训练卷积层，提取图像特征。但这引出的另一个问题是，图像分类样本的分辨率不是很高。所以YOLO v1使用ImageNet的图像分类样本采用 224224 作为输入，来训练CNN卷积层。然后在训练对象检测时，检测用的图像样本采用更高分辨率的 448448 的图像作为输入。但这样切换对模型性能有一定影响。

所以YOLO2在采用 224224 图像进行分类模型预训练后，再采用 448448 的高分辨率样本对分类模型进行微调（10个epoch），使网络特征逐渐适应 448448 的分辨率。然后再使用 448448 的检测样本进行训练，缓解了分辨率突然切换造成的影响。

3、Convolution with anchor boxes(使用先验框)

召回率大幅提升到88%，同时mAP轻微下降了0.2左右。

YOLOV1包含有全连接层，从而能直接预测Bounding Boxes的坐标值。 Faster R-CNN的方法只用卷积层与Region Proposal Network来预测Anchor Box的偏移值与置信度，而不是直接预测坐标值。作者发现通过预测偏移量而不是坐标值能够简化问题，让神经网络学习起来更容易。

借鉴Faster RCNN的做法，YOLOV2也尝试采用先验框（anchor）。在每个grid预先设定一组不同大小和宽高比的边框，来覆盖整个图像的不同位置和多种尺度，这些先验框作为预定义的候选区在神经网络中将检测其中是否存在对象，以及微调边框的位置。

之前YOLOV1并没有采用先验框，并且每个grid只预测两个bounding box，整个图像98个。YOLOV2如果每个grid采用9个先验框，总共有13139=1521个先验框。所以最终YOLO去掉了全连接层，使用Anchor Boxes来预测 Bounding Boxes。作者去掉了网络中一个Pooling层，这让卷积层的输出能有更高的分辨率。收缩网络让其运行在416416而不是448448。

由于图片中的物体都倾向于出现在图片的中心位置，特别是那种比较大的物体，所以有一个单独位于物体中心的位置用于预测这些物体。YOLO的卷积层采用32这个值来下采样图片，所以通过选择416416用作输入尺寸最终能输出一个1313的Feature Map。使用Anchor Box会让精度稍微下降，但用了它能让YOLO能预测出大于一千个框，同时recall从81%达到88%，mAP达到69.2%。

召回率升高，mAP轻微下降的原因是：因为YOLOV2不使用anchor boxes时，每个图像仅预测98个边界框。但是使用anchor boxes，YOLOV2模型预测了一千多个框，由于存在很多无用的框，这就导致了mAP值的下降。但是由于预测的框多了，所以能够预测出来的属于ground truth的框就多了，所以召回率就增加了。目标检测不是只以mAP为指标的，有些应用场景下要求召回率高。