Yolo-V2


  • Yolo-V2-Model(pytorch版本)

《YOLO9000:Better,Faster,Stronger》
—基于卷积神经网络的目标检测算法
作者:Joseph Redmon ,Ali Farhadi
单位:华盛顿大学
发表会议及时间:IEEE 2016

paper

一 论文导读


  • Abstract

We introduce YOLO9000, a state-of-the-art, real-time object detection system that can detect over 9000 object categories. First we propose various improvements to the YOLO detection method, both novel and drawn from prior work. The improved model, YOLOv2, is state-of-the-art on standard detection tasks like PASCAL VOC and COCO. At 67 FPS, YOLOv2 gets 76.8 mAP on VOC 2007. At 40 FPS, YOLOv2 gets 78.6 mAP, outperforming state-of-the-art methods like Faster RCNN with ResNet and SSD while still running significantly faster. Finally we propose a method to jointly train on object detection and classification. Using this method we train YOLO9000 simultaneously on the COCO detection dataset and the ImageNet classification dataset. Our joint training allows YOLO9000 to predict detections for object classes that don’t have labelled detection data. We validate our approach on the ImageNet detection task. YOLO9000 gets 19.7 mAP on the ImageNet detection validation set despite only having detection data for 44 of the 200 classes. On the 156 classes not in COCO, YOLO9000 gets 16.0 mAP. But YOLO can detect more than just 200 classes; it predicts detections for more than 9000 different object categories. And it still runs in real-time.

  • 简介

我们介绍YOL09000,一个最先进的,实时目标检测系统,可以检测超过9000个目标类别。

首先,我们提出对YOLO检测方法的各种改进方法,这些改进方法有新颖的也有从以前的工作中得出的。改进的模型
YOLOv2在PASCAL VOC和COCO标准检测任务是目前最好的。

使用一种新颖的多尺度训练方法,相同的YOLOv2模型可以运行在不同的大小的图片上,这个方法提供了速度和精度之间的权衡。在67 FPS时,YOLOv2在VOC 2007. 上获得76.8 mAP。在40 FPS时,YOLOv2获得78.6 mAP,性能优于最先进的
方法,例如使用ResNet的faster RCNN和SSD,同时运行速度明显更快。

最后,我们提出了一种联合训练目标检测和分类的方法。使用这种方法,我们在COC O检测数据集和ImageNet分类数据集.上同时训练YOLO9000。我们的联合训练方法允许YOL09000预测没有标记检测数据的目标类的检测。

我们在ImageNet检测数据集上验证我们的方法。YOLO9000在ImageNet检 测验证集上获得19.7mAP,尽管只有200个类中的44类检测数据。不在COCO的156类中,YOLO9000获得16.0mAP。 但是YOLO可以检测超过200个类;它预测超过9000个不同目标类别的检测,仍然实时运行。


主要改进

YOLOV1,定位不准确,和基于region proposal的方法相比召回率较低

1、Batch Normalization
设计新网络darknet-19,加入了bn层,收敛更快,相当于加了新的正则,可以去掉之前网络里的dropout层。
最终提高2%map。

  • V2版本舍弃Dropout,卷积后全部加入Batch Normalization
  • 网络的每一层的输入都做了归一化,收敛相对更容易
  • 经过Batch Normalization处理后的网络会提升2%的mAP
  • 从现在的角度来看,Batch Normalization已经成网络必备处理

2、High Resolution Classifier(高分辨率)
原来的YOLO网络在预训练输入尺寸为224*224,detection的时分辨率变为448*448的输入,分类模型切换到检测模
型的时候,模型还要适应图像分辨率的改变。
YOLOv2则将预训练分成两步: 224*224的输入从头开始训练网络,然后再将输入调整到448*448。最后再在检测的
数据集上fine-tuning。最终提高大约4%map.

3、Convolutional With Anchor Boxes

借鉴了Faster R-CNN的思想,对所有的GroundTruth使用聚类k-means++算法产生anchors。用1-iou作为距离

通过引入anchor boxes,使得预测的box数量更多(1313n)
跟faster-rcnn系列不同的是先验框并不是直接按照长宽固定比给定

我×,iou是什么和什么计算出来的???先验眶和真实框??应该不是,应该就用了真实框,然后自适应出来的
在这里插入图片描述

map有所降低但是recall提高 了。
recall :: 0.81—》0.88

4、Direct location predicition
坐标回归方式改变

在这里插入图片描述

  • bbox:中心为(xp,yp);宽和高为(wp,hp),则
  • tx=1,则将bbox在x轴向右移动wp; tx=-1则将其向左移动wp
  • 这样会导致收敛问题,模型不稳定,尤其是刚开始进行训练的时候
  • V2中并没有直接使用偏移量,而是选择相对grid cell的偏移量

在这里插入图片描述

在这里插入图片描述

是sigmoid的函数的意思
所以tx,ty被限制在了(0,1)之间

5、Class Loss function
类别损失使用softmax来获得

6、Net Structure

  • DarkNet,实际输入为416*416
  • 没有FC层,5次降采样,(13*13)
  • 1*1卷积节省了很多参数

改进总结:

1.利用wordTree设计,充分利用分类数据集,弥补目标识别类别数目的不足

2.重新设计基础网络darknet-19, 输入尺寸可变,从而在同一套模型上,提供速度和精度之间的切换

3.重新设计anchor box和坐标变换格式,使网络收敛更快,精度更高


二 论文精读

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

三 代码实现

四 问题思索

额外补充

这是一个不错的论文写作技巧,展示自己加的技术的效果展现
在这里插入图片描述

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值