SNIP 算法笔记

本文分析了目标检测算法在处理不同尺度物体时的挑战,特别是COCO数据集中小目标检测的困难。SNIP算法通过尺度归一化处理图像金字塔,减少了训练与迁移学习之间的domain-shift问题,提高了小目标检测性能。实验表明,SNIP相比其他多尺度训练方法有显著提升。
摘要由CSDN通过智能技术生成

论文:An Analysis of Scale Invariance in Object Detection – SNIP
论文链接:https://arxiv.org/abs/1711.08189
代码链接:http://bit.ly/2yXVg4c

这篇是CVPR2018的文章,引用文献非常到位,同时实验结果非常惊艳,总体来看比同是CVPR2018上的cascade RCNN效果还要好一些。概括而言,这篇文章从COCO数据集开始分析,认为目前目标检测算法的难点在于数据集中object的尺寸分布较大,尤其对于小目标的检测效果也有待提高,因此提出Scale Normalization for Image Pyramids (SNIP)算法来解决这个问题。

先来看看这篇文章的出发点。这篇文章的出发点可以简单概括为:数据集。作者发现如果将数据集按照图像中object的尺寸(scale)除以图像尺寸的倍数来排序,那么在ImageNet数据集中,这个倍数的中位数差不多是0.554倍,而在COCO数据集中,这个倍数是0.106倍,如Figure1中两条线标出的Median点所示。Figure1是关于ImageNet和COCO数据集中object尺寸和图像尺寸的倍数关系曲线,横坐标表示object的尺寸/图像尺寸的值,纵坐标表示占比。也就是说在COCO数据集中,大部分的object面积只有图像面积的1%以下,这说明在COCO数据集中小目标占比要比ImageNet数据集大。另外,从Figure1中的COCO曲线可以看出,第90%的倍数(0.472)差不多是第10%的倍数(0.106)的20倍!这说明在COCO数据集中的object尺寸变化范围非常大

那么这种差异会带来什么影响呢?因为在目标检测算法中常用基于ImageNet数据集预训练的模型来提取特征,也就是常说的迁移学习,但是从Figure1的两条曲线可以看出ImageNet和COCO数据集在object的尺寸分布上差异比较大,这样在做迁移学习时可能会存在一些问题,文章中将这个问题概括为domain-shift,可以简单理解为训练集和测试集分布存在较大差异,后面会有实验来证明这种差异对效果的影响。其实去年的YOLO v2也研究了类似的问题,YOLO v2考虑到在ImageNet数据集上预训练模型时输入图像大小是224*224,和检测网络用的尺寸差别较大(YOLO v2中常用416*416),所以就将预训练模型在416*416的ImageNet数据集上继续预训练,然后再用到检测模型提特征,这样就实现了预训练模型和检测模型的良好过渡。

评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值