YOLO9000: Better, Faster, Stronger

        这篇文章所介绍的模型是YOLOv2,是在YOLO的基础上进行了改进。他可以实现实时的检测,并且可以预测9000多个类别。文章主要从Better,Faster,Stronger三方面来进行阐述。

Better

        Yolo存在大量的定位错误,并且他的recall很低,于是模型主要关注保持精度的同时提升recall和定位的准确性。模型使用了很多目前已经存在的技术,并且对他们进行了实验分析。

 

0

Batch norm

        在YOLO模型的每层卷积后面添加一层Batch norm,满足了正则化的需求,增加了性能,同时使用这个结构使得在不会过拟合的前提下删除了dropout。

High Resolution Classifier

        YOLO在224*224分辨率训练分类网络,然后将分辨率上升到448*448用来检测。与他不同的是,YOLOv2直接使用448*448的分辨率对分类网络进行训练,然后微调生成的网络进行检测,这使得网络能够更好的处理高分辨率的图像,提升了模型的性能。

Convolutional With Anchor Boxes

        YOLO直接在卷积特征提取器上使用全连接层来进行边界框坐标的预测。YOLOv2去掉了全连接层,并且使用像Fast-RCNN一样的anchor box来预测边界框。还去掉了一层池化层,使得卷积层的输出分辨率更高。我们输入分辨率为416*416的图片而不是448*448,这样使得特征图由奇数个位置,因此只有一个中心单元,对于对象,尤其是大型对象来说更加有利于预测。和YOLO一样对图片进行32倍下采样,于是得到了13*13的特征图。仍然会计算预测框与真实框之间的IOU和预测该类的条件概率。

Dimension Clusters

        YOLO的anchor box的维度是手动人工挑选的,YOLOv2使用的是K均值算法来选择好的先验。但是使用标准的K均值算法会导致大的anchor会比小的anchor产生更多的误差,我们希望产生更好的IOU,这与anchor的大小无关,所以我们采用下面的距离度量公式并使K=5:

0

Direct location prediction

        YOLO在早期迭代过程中很不稳点,大部分的不稳定都来源于预测框的(x,y)位置.。在区域建议网络当中,模型需要很长的时间来稳定预测合理的偏移量。YOLOv2遵循YOLO的方法并且预测网格单元位置的坐标,使用逻辑激活将其限制在0到1之间。这个网络会在每个单元格预测5个边界框,并且为每个框预测tx, ty , tw, th, to五个坐标。

 

0

cx,cy是cell的坐标,pw,ph是边界框先验的高和宽。

Fine-Grained Features

        修改后的YOLO产生的是13*13的特征图,这对于大的物体是有效的,而小的物体需要更细腻的特征来进行检测,所以采用一个passthrough layer来从之前的层获得一个26*26分辨率的特征图。passthrough layer将高分辨率和低分辨率的特征图通过堆叠到不同的通道连接起来。

Multi-Scale Training

        YOLOv2只是用了卷积和池化,所以输入大小是可以改变的,所以我们希望它能够处理不同分辨率的图片。所以在训练的时候会每10个epoch之后改变图片的分辨率,因为模型会将图片下采样32倍,所以我们会使用32的整数倍{320, 352, ..., 608}。

Faster

        YOLOv2使用Googlenet作为基本的特征提取器,相较于VGG,他的计算量大大减小了,而性能只下降了一点。

Darknet-19

        论文提出了一种新的基于YOLOv2的分类器。主要使用3*3的filter,在每层池化之后通道数加倍。使用全局平均池化来进行预测和一个1*1的filter来压缩3*3卷积的特征表示。使用batch normalization来稳定模型,加速收敛,并使模型正则化。这个模型叫做Darknet-19,由19层卷积和5层最大池化组成。

 

0

Stronger

        论文提出了一种分类和检测数据联合训练的机制,使用为检测而标记的图像来学习检测特有的信息,如边界框坐标的预测和常见类别的分类。然后使用只带有类别标签的图像来扩展可以检测到的类别数量。在训练的时候会混合分类和检测数据集。如果见到检测的图像,那么可以使用完整的YOLOv2体系的反向传播;如果见到的是分类图像,那么只会对分类的部分进行反向传播。

Hierarchical classification

        我们使用wordnet来构建概念以及他们之间的关系。Norfolk terrier”和“Yorkshire terrier”都是“terrier”的上下音,前者是“猎狗”的一种,后者是“狗”的一种,后者是“犬科动物”的一种,等等。Wordnet的结构是一个向图,我们没有构建完整的图,而是构建了一个树。为了使用WordTree进行分类,我们在每个节点上预测该同义词集中每个下标的概率的条件概率。例如,在“terrier”节点上,我们预测:

使用这种方式将多个数据集组合在一起,如下图所示:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值