YOLO v2 / YOLO9000论文详解

最新推荐文章于 2022-07-26 16:52:06 发布

dexterod

最新推荐文章于 2022-07-26 16:52:06 发布

阅读量1.6k

点赞数 3

分类专栏：图像目标检测文章标签：算法

本文链接：https://blog.csdn.net/dexterod/article/details/104569694

版权

YOLO9000:Better, Faster, Stronger

声明：笔者翻译论文仅为学习研究，如有侵权请联系作者删除博文，谢谢！
源论文地址：https://arxiv.org/abs/1612.08242
注：文字中标粗和亮色的部分为笔者认为有创新改进余地和需要注意的地方，斜体部分为笔者的一些想法，因水平所限，部分笔触可能有不实和错误之处，敬请广大读者批评指正，让我们一起进步~

YOLO V1 | YOLO V3的论文详解见：YOLO V1 | YOLO V3

YOLO v2 和 YOLO 9000 可以看成是两部分，其中v2是对v1的各个部分进行技术上的加持和改进；9000是对数据集和检测类别进行扩展。这里我们重点说YOLO v2部分。
v2相对于v1来说，速度更快、精度更高。具体改进措施有以下几点：
在这里插入图片描述 1. 各卷积层后添加BN层；
2. YOLO2在采用 224×224 图像进行分类模型预训练后，再采用 448×448 的高分辨率样本对分类模型进行微调（10个epoch），使网络特征逐渐适应 448×448 的分辨率。然后再使用 448×448 的检测样本进行训练，缓解了分辨率突然切换造成的影响；
3. 引入anchor boxes（召回率上升，准确率略微下降），448×448 -> 416×416
通过使用K-means聚类方法筛选出一个网格cell里预测5个锚点框最合适；
通过给anchor boxes公式加约束的方式使anchor只负责周围的boxes，稳定模型；
4. 网络加入passtrough层（类似于ResNet），进行特征融合，提升检测小目标的能力；
5. 网络进行动态调整，每10 epoch随机输入新的图片尺寸{320,352，…，608}；
6. 提出新的特征提取网络Darknet-19。

整体框架如下：

在这里插入图片描述
对比YOLO1的输出张量7×7×(20+5×2），YOLO2的主要变化就是会输出5个先验框，且每个先验框都会尝试预测一个对象。输出的 13×13×5×25 张量中，25维向量包含 20 个对象的分类概率 + 4个边框坐标 + 1个边框置信度。

loss函数：

在这里插入图片描述 好，以下进行论文的翻译和注解：

摘要

我们介绍YOLO9000，一个最先进的，实时目标检测系统，可以检测超过9000个目标类别。首先，我们提出对YOLO检测方法的各种改进方法，包括新颖的和从以前的工作中得出的。改进的模型YOLO v2在如PASCAL VOC和COCO标准检测任务是最先进的。使用一种新颖的多尺度训练方法，相同的YOLO v2模型可以运行在不同的大小的图片上，提供速度和精度之间的轻松权衡。在67 FPS时，YOLO v2在VOC 2007上获得76.8 mAP。在40 FPS时，YOLO v2获得78.6 mAP，性能优于最先进的方法，例如使用ResNet的faster RCNN和SSD，同时运行速度明显更快。最后，我们提出了一种联合训练目标检测和分类的方法。使用这种方法，我们在COCO检测数据集和ImageNet分类数据集上同时训练YOLO 9000。我们的联合训练方法允许YOLO 9000预测没有标记检测数据的目标类的检测。我们在ImageNet检测数据集上验证我们的方法。YOLO 9000在ImageNet检测验证集上获得19.7 mAP，尽管只有200个类中的44类检测数据。在COCO的156类中，YOLO 9000获得16.0 mAP。但是YOLO可以检测超过200个类;它预测超过9000个不同目标类别的检测。它仍然实时运行。

1 引言

通用目标检测应该快速，准确，并且能够识别各种各样的目标。自从引入神经网络以来，检测框架已经变得越来越快速和准确。然而，大多数检测方法仍然局限于一小组目标。
与分类和标记等其他任务的数据集相比，当前目标检测数据集是有限的。最常见的检测数据集包含数十到数十万的图像，具有几十到几百个标签。分类数据集具有数百万个具有数十或数十万类别的图像。
我们希望检测可

最低0.47元/天解锁文章

dexterod

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
YOLO v2 / YOLO9000论文详解

YOLO9000:Better, Faster, Stronger声明：笔者翻译论文仅为学习研究，如有侵权请联系作者删除博文，谢谢！源论文地址：https://arxiv.org/abs/1612.08242注：文字中标粗和亮色的部分为笔者认为有创新改进余地和需要注意的地方，斜体部分为笔者的一些想法，因水平所限，部分笔触可能有不实和错误之处，敬请广大读者批评指正，让我们一起进步~YOLO ...
复制链接

扫一扫