An Analysis of Scale Invariance in Object Detection – SNIP 论文笔记

最新推荐文章于 2021-09-13 14:49:19 发布

头柱碳只狼

最新推荐文章于 2021-09-13 14:49:19 发布

阅读量248

点赞数

分类专栏：目标检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30146937/article/details/105965107

版权

本文探讨了尺度变化对目标检测的挑战，通过对比实验分析了不同网络结构对小目标检测的影响。SNIP方法提出，通过限制训练目标的尺度范围，兼顾目标变化和尺度不变性，提高了检测性能。在训练和测试时，使用相似尺度的目标能有效处理尺度变化问题。

摘要由CSDN通过智能技术生成

前言

首先思考这样一个问题：为什么目标检测与图像分类相比要更加困难呢？作者认为，这是由于目标的尺度变化，尤其当检测非常小的目标时很难达到理想的效果。在ImageNet和COCO中，目标的中等尺度分别为0.554和0.106，也就是说，COCO数据集中的大多数目标的尺度都小于图像区域的1%。更糟的是，在COCO中最小和最大的10%目标的尺度分别为0.024和0.472，这几乎是20倍的尺度变化！如下图所示：
在这里插入图片描述
检测器需要处理COCO中目标的尺度变化，而这对于CNN的尺度不变性来说是一种巨大的挑战。并且，ImageNet预训练的模型在迁移到样本大小差异较大的COCO中时很可能产生domain-shift偏差。目前也有很多方法解决尺度变化和小目标带来的问题，比如：

结合深层特征和浅层特征以检测小目标；
使用dilated/deformable卷积以提升感受野，从而检测大目标；
不同分辨率的卷积层进行独立预测，将预测结果用于捕获不同大小的目标。

上述方法虽然能够改善目标检测，但与训练相关的许多重要问题依然没有得到解决：

为了提高对小目标的检测效果，对图像进行上采样真的有必要吗？能不能直接用低分辨率的图像对CNN进行预训练（需要调小stride），然后在检测数据集上对网络进行微调以检测小目标？
当从一个预训练的图像分类模型来对目标检测器进行微调时，在调整输入图像的大小后，是将训练样本的分辨率控制在一个固定范围（比如从 $64\times 64$ 到 $256 \times 256$ ）之内呢？还是将所有分辨率的样本都投入训练呢？

尺度变化对分类网络的影响

这一节主要研究domain shift的影响，在训练和测试时，当输入不同分辨率的图像时，就会引入domain shift。作者设计了三个实验，如下图所示，讨论了在对小目标进行分类时，是设计专门的网络结构的效果好，还是就在原来的网络上进行微调的效果好。
在这里插入图片描述

CNN-B是用分辨率为 $224 \times 224$ 的图像训练的，对ImageNet中的图像先进行下采样，再上采样到 $224 \times 224$ ，作为CNN-B的输入。
CNN-S是专门为小目标设计的网络，对于 $48 \times 48$ 的图像，第一个卷积层步长为1，卷积核大小为 $3\times 3$

最低0.47元/天解锁文章

头柱碳只狼

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。