目标检测之YOLO V2

最新推荐文章于 2022-04-25 10:24:46 发布

球场书生

最新推荐文章于 2022-04-25 10:24:46 发布

阅读量264

点赞数 1

分类专栏：目标检测文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_41917697/article/details/115310616

版权

16 篇文章 6 订阅

订阅专栏

前言

《YOLO9000:Better, Faster, Stronger》
论文地址：https://arxiv.org/abs/1612.08242.
在这里插入图片描述
YOLO V2最多能识别9000种类别，但这里只介绍其在常用数据集上的方法和技巧。建议之前已经了解了YOLO V1。

Batch Normalization:使用BN得到2%的提升，还能起到一定正则化的效果，可以移除dropout。
High Resolution Classifier：先采用更高分辨率的 ImageNet图片去训练分类网络，之后再微调检测网络，得到4%的提升。
Convolutional With Anchor Boxes：这里借鉴了Fasterrcnn的思想，YOLO的卷积网络会下采样32倍，一个416x416的图片会得到13x13大小的特征图，每个cell会有n个anchor。虽然这样的方法使得map下降了0.3％但是recall却极大提升，意味着模型还有很大提升空间。
Dimension Clusters：前面所说的Anchor个数是通过 k-means聚合得到的。综合考虑复杂度和性能，选k=5。

在这里插入图片描述

Direct location prediction：这里没有沿用fasterrcnn的坐标计算方法，因为作者发现用在YOLO上面会使得整个模型在早期的时候训练不稳定。作者发现：这个公式是不受限制的，因此一个图像上目标可以匹配到图像上离得近的anchor也可以匹配到图像上离得很远的anchor。在随机初始化的情况下，模型需要很长时间才能稳定到预测合理的偏移量。作者改为预测以下的坐标：
Fine-Grained Features：复用之前的特征，即利用多尺度的信息进行结合，抽出前面26× 26×512的特征卷积成26x26x64，再与后面13x13x1024的特征维度上叠加成13×13×2048。26x26x64–>13x13x1024的方法如下示意图：
Multi-Scale Training：以32为间隔进行多尺度训练{320, 352, …, 608}，每10 batches从里面随机选取一个尺度训练。