【目标检测】YOLOV2

最新推荐文章于 2024-08-27 15:59:12 发布

qq_1532145264

最新推荐文章于 2024-08-27 15:59:12 发布

阅读量975

点赞数 20

分类专栏：机器学习文章标签：目标检测 YOLO 目标跟踪计算机视觉深度学习图像处理视觉检测

本文链接：https://blog.csdn.net/qq_1532145264/article/details/141552550

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

YOLO9000: Better, Faster, Stronger

【目标检测】YOLOV1

1、YOLOV2 改进策略

从 YOLO9000: Better, Faster, Stronger 这篇论文名称就可以了解到 YOLO V2 相对于 YOLO V1 ，预测更准确（Better），预测速度更快（Faster），识别的物体类别更多（Stronger），相比于 YOLOV1 只能检测 20 类物体，YOLO9000 提高到 9000+ 种。

YOLO V1 发挥 one-stage 方法的优势，在检测速度上，相对于 R-CNN 系列能达到比较快的检测速度，但是在检测精度上却不如 R-CNN 系列检测方法，所以 YOLO V2 提出了几种改进策略来提升YOLO 模型的定位准确度和召回率，从而提高 mAP 。

在这里插入图片描述

2、Better

（1）Batch Normalization （BN 归一化）

Batch Normalization 助于解决反向传播过程中的梯度消失和梯度爆炸问题，可以加快模型收敛速度。在 YOLO V2 中，每个卷积层后面都添加了 Batch Normalization 层，并且不再使用 droput 。

Dropout 是一种正则化技术，它在训练过程中随机关闭一部分神经元，被关闭的神经元不参与前向传播和反向传播。
Dropout的深入理解（基础介绍、模型描述、原理深入、代码实现以及变种）

（2）High Resolution Classifier （使用高分辨率图像微调分类模型）

YOLO V2 采用 224 * 224 图像进行分类模型预训练后，再采用 448 * 448 的高分辨率样本对分类模型进行微调（10个epoch），使网络特征逐渐适应 448 * 448 的分辨率。然后再使用 448 * 448 的检测样本进行训练，缓解了分辨率突然切换造成的影响。

（3）Convolutional With Anchor Boxes （采用先验框）

借鉴 Faster R-CNN 的做法，YOLO V2 也尝试采用先验框（anchor）。在每个 grid cell 预先设定一组不同大小和宽高比的边框，来覆盖整个图像的不同位置和多种尺度，这些先验框作为预定义的候选区在神经网络中将检测其中是否存在对象，以及微调边框的位置。

同时 YOLO V2 移除了全连接层。另外去掉了一个池化层，使网络卷积层输出具有更高的分辨率。

之前YOLO1并没有采用先验框，并且每个 grid cell 只预测两个 bounding box 。

（4）Dimension Clusters （采用聚类方法提取先验框尺度）

之前先验框都是手工设定的，YOLO V2 的做法是对训练集中标注的边框进行聚类分析，以寻找尽可能匹配样本的边框尺寸，这样就可以减少网络微调先验框到实际位置的难度。

在这里插入图片描述

（5）Direct location prediction （约束预测边框调整的位置）

Faster RCNN 的先验框（Anchor）方法，在训练的早期阶段，其位置预测容易不稳定（即调整后的 Anchor 位置中心可能出现在输入图像任意位置上）。YOLO V2 将预测边框中心位置调整约束在特定 gird cell 网格内。

在这里插入图片描述

（6）Fine-Grained Features （ passthrough 层检测细粒度特征）

YOLO V2 引入一种称为 passthrough 层的方法在特征图中保留一些细节信息，以便更好的检测出一些比较小的对象。具体来说，就是在最后一个 pooling 之前，特征图的大小是 26 * 26 * 512，将其 1 拆 4，直接传递（ passthrough ）到 pooling 后（并且又经过一组卷积）的特征图，两者叠加到一起作为输出的特征图。

（7）Multi-Scale Training （多尺度图像训练）

因为 YOLO V2 网络结构去掉了全连接层，YOLO V2 可以输入多种尺寸的图像。

（8）High Resolution Detector （支持高分辨率图像的对象检测）

因为 YOLO V2 调整网络结构后，能够支持多种尺寸的输入图像，如果用较高分辨率的输入图像，可提高 mAP 。

3、Faster

YOLO V2 采用 Darknet-19 网络结构，相对于 YOLO V1 采用的 VGG-16 ，在检测精度上相差无几，但是计算量却可以减少约33%，从而加快目标检测速度。

在这里插入图片描述

4、Stronger

通过采用联合训练（jointly training）机制，综合发挥目标检测任务数据集和图像分类任务数据集的综合优势（目标检测数据集图像数量少、目标类别少但提供精确的目标位置信息，而分类数据集无目标位置信息，但类别数多且图像数量庞大），使得支持的检测目标类别数从原来 YOLO V1 的 20 类大幅扩展至 9000 多种类别，大大提高了模型的适用性。

[COPY]
<机器爱学习>YOLOv2 / YOLO9000 深入理解
 YOLOv2 / YOLO9000 深入理解
 目标检测那点儿事——更强的YOLO-9000
目标检测那点儿事——更好更快的YOLO-V2
目标检测|YOLOv2原理与实现(附YOLOv3)