CoupleNet

最新推荐文章于 2021-04-17 17:17:34 发布

dekiang

最新推荐文章于 2021-04-17 17:17:34 发布

阅读量737

点赞数 1

分类专栏： Object Detection

本文链接：https://blog.csdn.net/weixin_41560402/article/details/109179478

版权

55 篇文章 17 订阅

订阅专栏

1. Motivation

R-FCN使用位置敏感得分图（ position-sensitive score maps）实现共享计算，提高了目标检测速度，但是，R-FCN的PSRoI pooling只利用到了局部信息，缺少全局信息。
Faster R-CNN的RoI poiling只使用全局信息，缺少局部信息。
由于存在前景类别（如，human and dog）的遮挡，sofa被分成很多小patch，只使用局部信息的PSRoI pooling将其正确识别为sofa的置信度非常低；尽管RoI poiling关注了物体的全部特征，但由于遮挡所引入的噪声太大，Faster R-CNN将其正确识别为sofa的置信度也只有0.45。
对此，CoupleNet同时使用PSRoI pooling和RoI poiling，分别提取局部信息和全局信息。

在这里插入图片描述

以ResNet-101作为backbone，提取CNN特征；
Region Proposal Network (RPN) 生成候选区域；
PSRoI pooling提取局部信息，得到位置敏感得分图后，得出类别概率和预测边界框（R-FCN head）；
RoI poiling提取全局信息，并得出类别概率和预测边界框（Fast R-CNN head）；
对上述2个head所得结果进行耦合（couple）。
CoupleNet同时使用了Local FCN分支和Global FCN分支进行检测，那么要考虑的关键问题就是如何对结果进行耦合，以及在耦合之前要如何做normalize。下面以分类子任务进行介绍

为什么在耦合前要进行normalize？

来自CNN不同层的特征具有不同的scale：Local FCN分支和Global FCN分支所输出的 $C + 1$ 维向量是原始输出，并未经过softmax得到类别概率，所以这两者的取值范围是不一样的，比如Local FCN分支输出的 $C + 1$ 维向量的元素值在 $[0, 0.5]$ 内，而Global FCN分支所输出的 $C + 1$ 维向量的元素值在 $[0, 0.01]$ 内，显然由于取值范围不同，不能直接耦合，所以要normalize到同一取值范围下，保证两者的scale相同。

使用何种normalization？

实验结果

使用L2 normalization比不使用任何normalization的效果更差。作者对使用L2 normalization前后的向量进行研究，发现使用L2 normalization后不同类别分数之间的差异变小了，使得分类结果更差。L2 normalization后元素会落入单位超球面内。

element-wise sum
element-wise product
and element-wise maximum
实验结果表明，element-wise sum的效果最好。目前的ResNet一般也采用element-wise sum作为整合前层信息的有效方式，极大地促进了信息的流通，实现了优势互补。