对YOLO-v2的理解及阅读笔记

最新推荐文章于 2021-11-27 17:29:03 发布

TTTree_

最新推荐文章于 2021-11-27 17:29:03 发布

阅读量652

点赞数

分类专栏：目标检测文章标签： YOLO YOLO2 目标检测计算机视觉

本文链接：https://blog.csdn.net/TTTree_/article/details/100804396

版权

YOLO-v2 阅读笔记

YOLO-v2论文标题：《YOLO9000:Better, Faster, Stronger》，CVPR2017的文章。论文地址：（懒得写链接了）。论文复现代码：http://pjreddie.com/yolo9000/
这篇文章其中提出了两种模型，YOLOv2和YOLO9000.但是少了很多细节，比如损失函数的设计、先验框的匹配原则等，想要真正搞懂需要花不少力气看源码。
采用多尺度的训练方法，YOLOv2在速度和准确度上有了很好的均衡。YOLO9000指的是，可以检测超过9000种物体的检测器。提出了一种联合进行目标检测和分类训练的方法，能够同时在COCO数据集和ImageNet数据集上训练YOLO9000。这样的训练方法使YOLO9000能够对没有label类别的数据进行检测。

第一章介绍

相对于图像分类任务而言，目标检测任务能够检测出来的目标种类数目少得多。这主要是由于缺乏足够丰富的数据集造成的，因为给检测数据打标签要比分类标签难。
因此，我们提出了一种新方法能够利用现有的大量分类数据来扩充检测系统，将不同的数据结合起来。其次，我们提出了一种联合训练算法，使得我们能够同时进行检测和分类任务的训练。我们的方法利用带有标签的检测图像来学习如何精确定位目标，同时使用分类图像来增加其词汇量和鲁棒性。
文章结构是这样，先对YOLOv1进行改进，然后使用联合训练方法在ImageNet和COCO数据集上进行训练。

第二章 Better

先概括一下本章：作者在YOLO1的基础上进行改进，想要在保持速度的基础上增加准确率，主要有两个思路：使用高分辨率的特征以提高小目标检测，使用更精细的Bbox设计使得定位更准确。主要做了以下几方面的工作：添加BN层；在ImageNet上使用高分辨率的图像训练分类网络，在VOC检测数据上使用多尺度输入图像以适应不同输入尺寸；尝试了anchor box，虽然recall上升但是mAP下降了，那么吸收anchor的优点对YOLO的Bbox设计进行改进；最后用了一个类似shortcut的传递层将高、低分辨率的特征图结合起来。
这部分细节很多，我没有看源码，想要真正理解还是要去看源码。

根据YOLOv1存在的缺点，我们主要针对recall和定位准确性进行了改进。表2展示了YOLO与YOLOv2的对比，很清楚地看出在添加不同设计方法后mAP的变化（良心）。然后下面分别说明了每个设计策略。（一些tricks）
BN层
添加BN层能够显著提升模型的收敛效果，有助于规范模型，同时我们将dropout去掉的情况下也没有出现过拟合的现象。在所有的卷积层上使用BN使得mAP增加了2%。
高分辨率分类器
对于YOLOv2ÿ

最低0.47元/天解锁文章

TTTree_

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
对YOLO-v2的理解及阅读笔记

YOLO-v2 阅读笔记YOLO-v2论文标题：《YOLO9000:Better, Faster, Stronger》，CVPR2017的文章。论文地址：（懒得写链接了）。论文复现代码：http://pjreddie.com/yolo9000/这篇文章其中提出了两种模型，YOLOv2和YOLO9000.但是少了很多细节，比如损失函数的设计、先验框的匹配原则等，想要真正搞懂需要花不少力气看源码。...
复制链接

扫一扫