对YOLO-v2的理解及阅读笔记

YOLO-v2 阅读笔记

YOLO-v2论文标题:《YOLO9000:Better, Faster, Stronger》,CVPR2017的文章。论文地址:(懒得写链接了)。论文复现代码:http://pjreddie.com/yolo9000/
这篇文章其中提出了两种模型,YOLOv2和YOLO9000.但是少了很多细节,比如损失函数的设计、先验框的匹配原则等,想要真正搞懂需要花不少力气看源码。
采用多尺度的训练方法,YOLOv2在速度和准确度上有了很好的均衡。YOLO9000指的是,可以检测超过9000种物体的检测器。提出了一种联合进行目标检测和分类训练的方法,能够同时在COCO数据集和ImageNet数据集上训练YOLO9000。这样的训练方法使YOLO9000能够对没有label类别的数据进行检测。

第一章 介绍

  1. 相对于图像分类任务而言,目标检测任务能够检测出来的目标种类数目少得多。这主要是由于缺乏足够丰富的数据集造成的,因为给检测数据打标签要比分类标签难。
  2. 因此,我们提出了一种新方法能够利用现有的大量分类数据来扩充检测系统,将不同的数据结合起来。其次,我们提出了一种联合训练算法,使得我们能够同时进行检测和分类任务的训练。我们的方法利用带有标签的检测图像来学习如何精确定位目标,同时使用分类图像来增加其词汇量和鲁棒性。
  3. 文章结构是这样,先对YOLOv1进行改进,然后使用联合训练方法在ImageNet和COCO数据集上进行训练。

第二章 Better

先概括一下本章:作者在YOLO1的基础上进行改进,想要在保持速度的基础上增加准确率,主要有两个思路:使用高分辨率的特征以提高小目标检测,使用更精细的Bbox设计使得定位更准确。主要做了以下几方面的工作:添加BN层;在ImageNet上使用高分辨率的图像训练分类网络,在VOC检测数据上使用多尺度输入图像以适应不同输入尺寸;尝试了anchor box,虽然recall上升但是mAP下降了,那么吸收anchor的优点对YOLO的Bbox设计进行改进;最后用了一个类似shortcut的传递层将高、低分辨率的特征图结合起来。
这部分细节很多,我没有看源码,想要真正理解还是要去看源码。

  1. 根据YOLOv1存在的缺点,我们主要针对recall和定位准确性进行了改进。表2展示了YOLO与YOLOv2的对比,很清楚地看出在添加不同设计方法后mAP的变化(良心)。然后下面分别说明了每个设计策略。(一些tricks)
    在这里插入图片描述
  2. BN层
    添加BN层能够显著提升模型的收敛效果,有助于规范模型,同时我们将dropout去掉的情况下也没有出现过拟合的现象。在所有的卷积层上使用BN使得mAP增加了2%。
  3. 高分辨率分类器
    对于YOLOv2ÿ
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值