STDN

论文:Scale-Transferrable Object Detection
来源:CVPR 2018

1. Motivation

现阶段(2018年),利用多尺度特征来解决目标检测中的尺度变化问题的算法大致可以分为3类

  • 直接的多尺度特征预测,如SSD,MSCNN,DSOD;
  • 多尺度特征融合+单尺度特征预测,如ION,HyperNet,TDM,YOLOv2
  • 多尺度特征融合+多尺度特征预测,如RON,FPN,ZIP,DSSD

1.1 直接的多尺度特征预测

  • 直接的多尺度特征预测的网络结构简图如下所示,即,直接利用网络中不同分辨率的特征图来检测不同大小的物体,分辨率较高的浅层特征图由于具有丰富的细节信息和较小的感受野,适合用来检测小物体;分辨率较低的深层特征图由于具有较强的语义信息和较大的感受野,适合用来检测大物体。
  • 但由于浅层特征的语义信息不够强,所以对小物体的检测效果还不够好。
    在这里插入图片描述

1.2 多尺度特征融合+单尺度特征预测

  • 多尺度特征融合+单尺度特征预测的网络结构简图如下所示,这类算法的目的是使用于检测的输出特征图同时具有丰富的细节信息和较强的语义信息,但这类算法在多尺度特征融合方式上各有不同。
    在这里插入图片描述

  • ION使用skip pooling进行多尺度特征融合
    在这里插入图片描述

  • HyperNet的多尺度特征融合方式如下:小尺寸特征用max pooling做下采样,大尺寸特征用反卷积做上采样,最后直接将多个特征按通道数concatenate成单尺度特征。
    在这里插入图片描述

  • TDM则由深到浅将相邻层聚合起来
    在这里插入图片描述在这里插入图片描述

1.3 多尺度特征融合+多尺度特征预测

  • 多尺度特征融合+多尺度特征预测的网络结构简图如下所示,如RON,FPN,ZIP,DSSD均是这种结构。
    在这里插入图片描述
  • 本文提出的ScaleTransferrable Detection Network (STDN) 属于这种方法,具体地,以DenseNet作为backbone提取特征时,其内部已进行多次多尺度特征融合,得到的输出特征图同时具丰富的细节信息和较强的语义信息,随后使用Scale-Transfer Module (STM) 对多个分辨率相同的特征图进行转换,得到多尺度特征图,并以此进行预测。

2. ScaleTransferrable Detection Network (STDN)

2.1 overview

  • STDN的网络结构如下所示

在这里插入图片描述
在这里插入图片描述

  • 修改预处理层 。DenseNet采用 7 × 7   c o n v , s t r i d e   2 7\times7\ conv,stride\ 2 7×7 conv,stride 2 3 × 3   m a x   p o o l , s t r i d e   2 3\times3\ max\ pool,stride\ 2 3×3 max pool,stride 2的预处理层来迅速减小特征尺寸,该过程进行连续的下采样,所以会损失很多细粒度信息,不利于目标检测。对此,作者采用3个 3 × 3 3\times3 3×3卷积层来代替1个 7 × 7 7\times7 7×7卷积层,采用 2 × 2 2\times2 2×2平均池化层来代替 3 × 3 3\times3 3×3最大池化层。
    在这里插入图片描述
    作者把预处理层称为stem block,并通过实验验证其有效性。
    在这里插入图片描述
  • 在DenseNet中,同一个dense block的所有特征图均具有相同的尺寸,STDN以dense block (4) 中的6个特征图为输出,接着利用Scale-Transfer Module (STM) 将相同尺寸的特征图转换成尺寸不同的特征图。
  • STM包含两个模块:mean pooling layer和scale-transfer layer。mean pooling layer将通道数较少的特征图下采样至不同分辨率,scale-transfer layer将通道数较多的特征图上采样至不同分辨率。相比于SSD,STDN中的高分辨率特征图来与网络最深层,因而具有更强的语义信息。(细节信息是否会较少?感受野大小如何?)

2.2 scale-transfer layer

  • 假设scale-transfer layer的输入特征尺寸为 W × H × C ∗ r 2 W\times H\times C*r^2 W×H×Cr2,其中 r r r为期望上采样率, C C C为期望输出特征图的通道数。如下图所示,scale-transfer layer实际上是对输入特征图各个元素进行重新排列(按列存储),排列规则为
    在这里插入图片描述
    I L R I^{LR} ILR是低分辨率输入特征图, I S R I^{SR} ISR是高分辨率输出特征图。
    在这里插入图片描述

2.3 detection head

  • detection head的结构和SSD一样,anchor的设置、label assignment、损失函数等遵循常规做法。

3. 实验

  • 实验验证了STM、stem block和DenseNet这3方面的有效性
    在这里插入图片描述
  • 最终效果
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值