STDN

最新推荐文章于 2022-06-04 01:33:59 发布

dekiang

最新推荐文章于 2022-06-04 01:33:59 发布

阅读量643

点赞数

分类专栏： Object Detection

本文链接：https://blog.csdn.net/weixin_41560402/article/details/109346941

版权

55 篇文章 17 订阅

订阅专栏

1. Motivation

现阶段（2018年），利用多尺度特征来解决目标检测中的尺度变化问题的算法大致可以分为3类

直接的多尺度特征预测的网络结构简图如下所示，即，直接利用网络中不同分辨率的特征图来检测不同大小的物体，分辨率较高的浅层特征图由于具有丰富的细节信息和较小的感受野，适合用来检测小物体；分辨率较低的深层特征图由于具有较强的语义信息和较大的感受野，适合用来检测大物体。
但由于浅层特征的语义信息不够强，所以对小物体的检测效果还不够好。

多尺度特征融合+单尺度特征预测的网络结构简图如下所示，这类算法的目的是使用于检测的输出特征图同时具有丰富的细节信息和较强的语义信息，但这类算法在多尺度特征融合方式上各有不同。
ION使用skip pooling进行多尺度特征融合
HyperNet的多尺度特征融合方式如下：小尺寸特征用max pooling做下采样，大尺寸特征用反卷积做上采样，最后直接将多个特征按通道数concatenate成单尺度特征。
TDM则由深到浅将相邻层聚合起来

多尺度特征融合+多尺度特征预测的网络结构简图如下所示，如RON，FPN，ZIP，DSSD均是这种结构。
本文提出的ScaleTransferrable Detection Network (STDN) 属于这种方法，具体地，以DenseNet作为backbone提取特征时，其内部已进行多次多尺度特征融合，得到的输出特征图同时具丰富的细节信息和较强的语义信息，随后使用Scale-Transfer Module (STM) 对多个分辨率相同的特征图进行转换，得到多尺度特征图，并以此进行预测。

在这里插入图片描述

修改预处理层 。DenseNet采用 $7\times7\ conv,stride\ 2$ 和 $3\times3\ max\ pool,stride\ 2$ 的预处理层来迅速减小特征尺寸，该过程进行连续的下采样，所以会损失很多细粒度信息，不利于目标检测。对此，作者采用3个 $3\times3$ 卷积层来代替1个 $7\times7$ 卷积层，采用 $2\times2$ 平均池化层来代替 $3\times3$ 最大池化层。

作者把预处理层称为stem block，并通过实验验证其有效性。
在DenseNet中，同一个dense block的所有特征图均具有相同的尺寸，STDN以dense block (4) 中的6个特征图为输出，接着利用Scale-Transfer Module (STM) 将相同尺寸的特征图转换成尺寸不同的特征图。
STM包含两个模块：mean pooling layer和scale-transfer layer。mean pooling layer将通道数较少的特征图下采样至不同分辨率，scale-transfer layer将通道数较多的特征图上采样至不同分辨率。相比于SSD，STDN中的高分辨率特征图来与网络最深层，因而具有更强的语义信息。（细节信息是否会较少？感受野大小如何？）

假设scale-transfer layer的输入特征尺寸为 $W\times H\times C*r^2$ ，其中 $r$ 为期望上采样率， $C$ 为期望输出特征图的通道数。如下图所示，scale-transfer layer实际上是对输入特征图各个元素进行重新排列（按列存储），排列规则为

$I^{LR}$ 是低分辨率输入特征图， $I^{SR}$ 是高分辨率输出特征图。

关注