【D2Det】《 D2Det：Towards High Quality Object Detection and Instance Segmentation》

最新推荐文章于 2022-01-16 20:26:49 发布

bryant_meng

最新推荐文章于 2022-01-16 20:26:49 发布

阅读量2.6k

点赞数 2

分类专栏： CNN / Transformer

本文链接：https://blog.csdn.net/bryant_meng/article/details/108175375

版权

CNN / Transformer 专栏收录该内容

204 篇文章 7 订阅

订阅专栏

在这里插入图片描述

CVPR-2020

Pytorch Code：
https://github.com/JialeCao001/D2Det.

1 Background and Motivation

得益于 CNN 技术的发展，Object detection task 方兴未艾，目前主流的方法可以分为 one-stage 和 two-stage，后者在精度上往往占优

作者在 two-stage 方法的基础上，对分类和回归分支进行了改进，进一步提升了目标检测和实例分割的精度

2 Related Work

integrating pyramid representations（FPN、SNIPER、TridentNet）
extending to multi-stage detection（cascade RCNN）
integrating a mask branch

3 Advantages / Contributions

在 two-stage 的目标检测方法基础上，对分类分支和回归分支上进行了改进

提出 dense local regression 提升定位能力
提出 discriminative RoI pooling 提升分类能力

在 COCO 目标检测和分割的数据集上，表现比较猛

4 Method

在这里插入图片描述

dense local regression 提升定位能力
discriminative RoI pooling 提升分类能力

4.1 Dense Local Regression

在这里插入图片描述
上图 P 是预测的 bbox，G 是 GT，从右下角开始看，然后往左往上延伸，最后汇集到左上角

以前一个 RoI 只回归 4 个偏移量（中心坐标 x 和 y +长+宽）

作者的方法，叫 Dense Local Regression

dense 体现在， RoI 中每个位置，都可以预测偏移量（到 GT 四个边界的距离，有点像 anchor-based 的方式）

local 体现在，加一个 mask（binary overlap prediction ，平均起来），然 RoI 的 bbox 与 GT 有交集的部分，才进行偏移量的预测，目的是排除噪声的干扰，训练的时候，要让 predict 的 mask 仅在 GT包含的位置处为1（our binary overlap predictor reduces the influence of background regions on the final box regression.）

在这里插入图片描述

这样分类分支就是全卷积的形式了，输出通道数为 5，第一个通道是 mask，后面 4 个通道是 4 个偏移量

4 个偏移量的计算方式如下，归一化方式是除以 proposal 的长宽

在这里插入图片描述
下面这个图就非常清晰的展示了 dense local regression

在这里插入图片描述
最后会把每个点预测的结果平均起来，有种 ensemble 的感觉哈

做实例分割的时候，就是 mask 的形式不一样，不是框框了，而是多边形轮廓！

4.2 Discriminative RoI Pooling

在这里插入图片描述

基于 deformable RoI pooling （参考 Deformable Convolutional Network论文解读）的改进！

在这里插入图片描述

作者的方法呢，预测 bin 偏置的时候，参数量更少，之前 pooling 成 $k \times k$ ，现在 pooling 成了是 $\frac{k}{2}×\frac{k}{2}$ ，然后拉成列向量，接全连层，reshape 成 $2 k \times 2 k \times 2$ 的偏置

为什么要弄成 $2 k \times 2 k$ 分辨率呢？因为，原来的 RoI align 方法，会把每一个 bin 也就是作者说的 sub-region ，分为 4 个格子，用双线性插值方法计算 4 个各种中心位置的像素值（参考【Mask RCNN】《Mask R-CNN》），然后 avg or max 来得到当前 bin pooling 后的结果！

在这里插入图片描述

作者想，凭什么 4 个采样点的 weight 要一样，能不能更有争对性一点，于是，用 $2 k \times 2 k$ ，相当于原来每个 bin 中划了 4 个格子，每个格子代表一个采样点，作者通过 learning 的方式预测出 4 个格子的权重，然后结合 4 个格子的像素值，avg pooling 后得到结果，本质上是对 RoI Align 采样点权重的一种 learning

在这里插入图片描述

4.3 Instance Segmentation

注意下定位分支中 mask GT 形式就行，其它和 Object Detection 一样

5 Experiments

5.1 Datasets

MS COCO
UAVDT：The Unmanned Aerial Vehicle Benchmark:Object Detection and Tracking，一个用于无人机识别和跟踪任务的复杂场景数据集
iSAID：satellite imagery，It contains 655,451 instances for 15 classes (roundabout, baseball diamond, large vehicle, plane, storage tank, ship, ground track field, tennis court, swimming pool, basketball court, harbor, small vehicle, bridge, helicopter, and soccer ball field).

5.2 Experiments on MS COCO

1）群雄逐鹿
在这里插入图片描述

SOTA SOTA

2）Qualitative Analysis

在这里插入图片描述

loc 是在完美的定位情况下（用 GT），C50 C75 是指不同 IoU 阈值下的分类情况，更详细的说明可参考 MS COCO 目标检测、人体关键点检测评价指标

在这里插入图片描述
3）Ablation Study

在这里插入图片描述
双剑合璧，1+1>1

就是比你 Grid R-CNN 强，我让你个左手，你都打不过我，气不气

5.3 Experiments on UAVDT Dataset

在这里插入图片描述

5.4 Instance Segmentation

在这里插入图片描述

卫星图像的分割，666

6 Conclusion（own）

roi pooling 中每个 bin （sub-region）预测一个偏置，配合 mask 来降低运算量和背景的干扰
weighted pooling，来改进 RoI Align 双线性插值时每个 bin 中采样点（4个）的权重
Grid R-CNN理解
作者 $k$ 取的 7， $k / 2$ 会取多少，3？4？

bryant_meng

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
【D2Det】《 D2Det：Towards High Quality Object Detection and Instance Segmentation》

CVPR-2020Pytorch Code：https://github.com/JialeCao001/D2Det.文章目录1 Background and Motivation2 Related Work3 Advantages / Contributions4 Method4.1 Dense Local Regression4.2 Discriminative RoI Pooling4.3 Instance Segmentation5 Experiments5.1 Datasets5.2 .
复制链接

扫一扫