目标检测中的多尺度问题及优化-SNIP

本文探讨了目标检测任务中尺度变化带来的挑战,分析了图像分辨率对分类和检测任务的影响,以及数据增强策略。SNIP(Scale Normalization for Image Pyramids)作为一种改进的多尺度训练方法,通过针对不同尺度的目标进行特定训练,提高了检测器的效果。尽管SNIP在推理速度上存在问题,但其创新的网络结构为解决多尺度问题提供了新思路。
摘要由CSDN通过智能技术生成


在目标检测任务中,算法的效果常常会受到多种因素的影响,比如遮挡、目标尺度变化等,在之前的一篇博文中,笔者解释了针对遮挡问题进行优化的几种算法。最近中科院自动化所陈韫韬等人提出了"Trident Network",单模型的mAP刷到了48.4,于是引起了笔者的兴趣,在读这篇文章的过程中发现,目标检测方向已经存在了几篇解决多尺度问题的文章,为了能够对多尺度问题有更加深刻的理解,于是阅读了一系列的目标检测中的多尺度问题及优化的文章。

SNIP,全称为“Scale Normalization for Image Pyramids”,作者在提出解决方案(SNIP)之前,做了大量的实验来发现问题和分析问题的原因,笔者一直做的是分类和检测方向,在读文章的过程中受到很大的启发,故在这里记录,希望对大家也有所帮助。

1 检测任务的困难

图像分类算法,比如ResNeXt-101 32 × 48d网络结构,在Imagenet数据集上的Top5准确率已经98%左右,Top1为85%。对于图像检测算法,最好的模型在coco数据集上的效果 A P 50 AP_{50} AP50为62%,显然,总体上来看,准确率差了20个点左右,那么问题来了,为什么检测算法比识别算法的效果低这么多呢

1.1 尺度差异

作者认为原因在于,检测任务中的目标存在较大的尺度变化(large scale variation)。作者统计了Imagenet和COCO数据集的特点,如下图,
在这里插入图片描述
其中,横坐标表示目标相对于原图的比例,纵坐标表示累计分布(cumulation distribution function)。显然,由图中可以看出,COCO数据集中50%的目标相对原图的比例小于0.106,而Imagenet数据集中相对原图的比例小于0.106的目标的比例不足10%,因此,COCO数据集中的目标尺寸明显小于Imagenet数据集中的目标。

而且,COCO数据集中,最小的10%的目标尺寸小于0.024,最大的10%的目标尺寸大于0.472,显然,对于待检测的所有目标,它们的尺寸差异是很大的,那么如何把所有尺寸的目标都召回来呢

1.2 domain-shift

通常,对于目标检测任务,我们会使用imagenet预训练的模型,然后做finetune。但是,上面提到了分类数据集中目标的尺寸比检测数据集中的大,所以直接finetune会引入“domain-shift” 问题,那么如何保证finetune用的数据集中目标尺寸和检测数据集中保持一致呢

2 图像分辨率对分类任务的影响

在分类任务中,我们常常遇到训练集或者测试集中包含了不同分辨率的图片。根据经验这时候会有很多种选择,(1) 把所有的图片缩放到相同尺寸,然后训练和推理;(2) 训练大网络和小网络,分别用来处理大分辨率和小分辨率的图片,笔者之前用过第二种方案。但是在论文中,作者用数据说话,证明了这两种方案都是次优的。

(a)CNN-B方案:训练集将图像下采样到 48 × 48 , 64 × 64 , 80 × 80 , 96 × 96 , 128 × 128 48\times 48, 64\times 64, 80\times 80, 96\times 96, 128\times 128 48×48,64×64,80×80,96×96,128×128,模拟出低分辨率图片,然后将低分辨率图像resize到 224 × 224 224\times 224 224×224作为网络的输入,测试集将所有图像resize到 224 × 224 224\times 224 224×

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值