Scale-Aware Trident Networks for Object Detection 论文笔记

最新推荐文章于 2020-12-29 12:13:54 发布

头柱碳只狼

最新推荐文章于 2020-12-29 12:13:54 发布

阅读量467

点赞数

分类专栏：目标检测

本文链接：https://blog.csdn.net/qq_30146937/article/details/106127419

版权

前言

为了解决目标检测中的尺度变换问题，目前人们已经提出了如下方法：
在这里插入图片描述

（a）：图像金字塔，虽然对目标的表征能力很强，但由于每种尺度的图像都要经过一个CNN，因此效率很低；
（b）：特征金字塔，虽然能够生成多尺度特征，计算消耗相对于图像金字塔来说更少，但由于不同尺度的目标被分配到不同层级的特征图上，导致参数不一致；
（c）：就是本文提出的三叉戟网络（Trident Network）。

图像金字塔和特征金字塔的共同特点是，模型对于不同尺度的目标应该有不同的感受野。基于此，本文提出Trident Network，首先利用trident block（上图c中的黄色部分，有三个分支）生成不同尺度的特征图，trident block使用的是空洞卷积（dilated convolution），这样可以使不同的分支拥有相同的网络结构，并且共享相同的参数，而同时每个分支的感受野是不同的。为了避免有过大或过小的目标参与到训练中，还提出了scale-aware训练策略，确保分配给每个分支的目标的尺度大小与该分支的感受野大小是相匹配的。由于整个多分支网络的权重是共享的，因此在inference时可以将整个Trident Network近似成为只有一个主要分支的网络，这样做使得inference不会引入额外的参数和计算消耗。

本文的主要贡献为：

研究了在目标检测中，感受野对不同尺度大小的目标的影响；
提出Trident Network以解决尺度变化问题，它生成的不同尺度的特征图的表征能力都是相同的；
提出TridentNet Fast，通过trident-block中权重共享的设计，在inference时只保留一个主要分支；
使用ResNet-101作为backbone，在COCO数据上达到48.4的mAP。

对感受野的研究

为了研究感受野对检测不同大小目标的影响，本文将backbone中的一些卷积层替换为空洞卷积，使用不同的dilation rate来控制感受野的大小。

在空洞卷积中有一个超参数dilation rate $d_s$ ，表示在filter之间插入 $d_s-1$ 个0，这样做可以扩大kernel的大小，同时不会带来额外的参数和计算消耗。如下图所示，（a）是一个 $\times 3$ 的kernel，它的 $d_s$ 就是1；&

最低0.47元/天解锁文章

头柱碳只狼

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Scale-Aware Trident Networks for Object Detection 论文笔记

前言为了解决目标检测中的尺度变换问题，目前人们已经提出了如下方法：（a）：图像金字塔，虽然对目标的表征能力很强，但由于每种尺度的图像都要经过一个CNN，因此效率很低；（b）：特征金字塔，虽然能够生成多尺度特征，计算消耗相对于图像金字塔来说更少，但由于不同尺度的目标被分配到不同层级的特征图上，导致参数不一致；（c）：就是本文提出的三叉戟网络（Trident Network）。图像金字塔和特征金字塔的共同特点是，模型对于不同尺度的目标应该有不同的感受野。基于此，本文提出Trident Netwo
复制链接

扫一扫