目标检测--通过增加细节信息通道提高包围框的回归精度(PANet)

最新推荐文章于 2022-05-19 16:52:10 发布

风可。

最新推荐文章于 2022-05-19 16:52:10 发布

阅读量1.3k

点赞数 1

分类专栏：机器视觉论文深度学习

本文链接：https://blog.csdn.net/u012925804/article/details/104064305

版权

深度学习同时被 3 个专栏收录

37 篇文章 2 订阅

订阅专栏

机器视觉

23 篇文章 0 订阅

订阅专栏

论文

22 篇文章 0 订阅

订阅专栏

0 关于PANet有几个点需要注意

这是一个two stage的模型，是mast r-cnn的改进；乍一看还以为RetinaNet的改进。
中间用的是roi align；
除了加入一个绿色信息通道，其实对于细节定位的另外一个提高是自适应特征池化(Adaptive feature pooling)，这个模块非常重要。

1 FPN对细节信息的损失

在目标检测中包围框的回归是一个比较常用的方法，例如R-CNN、FPN等都是用回归来预测包围框。

我们知道，回归坐标比较需要底层(low-level)的细节信息，相对来说语义信息对目标的分类起更大的作用。而很多框架进行坐标回归的时候往往是在比较高层（high-level)的特征图像进行。

例如FPN（如下图a部分），我想要到达P5，我们需要经过整个backbone，假设是resnet50，那么我们大概需要经过50个conv层，想到达P4也需要非常多的卷积。所以p5到p3的细节信息损失是比较多的。

在这里插入图片描述

2 增加一条绿色信息通道

因此作者想到了，增加一条"绿色"的细节信息（特征）通道，来提供坐标回归所需要的细节信息。（如上图b所示）。

这样大大增加了坐标回归的精度，并且计算量没有增加多少，网络改动也不大。并且类别语义信息还会继续通过红色路径传递过来。这个绿色通道还有个作用就是特征融合，因为可以是先结合左边的特征，然后向上传播。

EfficientDet也采用了这种方法。最后实验表明回归框精度提高。

3 自适应特征池化adaptive feature pooling

结构如下：
在这里插入图片描述
可以看到，图中写了ROIAlign，灰色的区域就是region proposal对应的特征图中的区域，然后通过ROIAlign进行pooling。fc1我觉得可以理解为一个reshape的过程，把正方形拉成直线，因为在CSPNet论文中提到了，使用了SPP（Spatial Pyramid Pooling，空间池化金字塔），那么spp就估计是使用在这里。

那么fpn上不同层的特征经过ROIAlign以后如何fusion（融合）呢，这里采用逐像素的做max或者add。

融合后的特征，然后在做分类或者mask预测。

这里使用自适应特征池化是为了将细节和高层语义信息融合，文章说：

在FPN中，依据候选区域的大小将候选区域分配到不同特征层次。这样小的候选区域分配到low-level，大的候选区域分配到high-level，这虽然简单但却很有效，但这可能会产生非最优结果。例如两个具有10个像素差的候选区域可能分配到不同特征层次，实际上，这两个候选区域非常相似。

进一步，特征的重要性可能与他们所属的特征层次没有太大关系。

High-level特征具有大的接受野并捕获了丰富的上下文信息。允许小型候选区域获取这些特征更好的使用上下文信息做预测。
low-level特征具有许多微小细节和高定位精度。这允许大型侯选区域获取这些特征，这显然是有益的。

也就是说，无论是high还是low的feature都有用。有了这样的想法，对于每个候选区域，我们提出了池化来自所有层次的特征，然后融合它们做预测，这称之为adaptive feature pooling(自适应特征池化).

3 引用

PANet
EfficientDet
https://blog.csdn.net/u011974639/article/details/79595179

风可。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
目标检测--通过增加细节信息通道提高包围框的回归精度(PANet)

1 FPN对细节信息的损失在目标检测中包围框的回归是一个比较常用的方法，例如R-CNN、FPN等都是用回归来预测包围框。我们知道，回归坐标比较需要底层(low-level)的细节信息，相对来说语义信息对目标的分类起更大的作用。而很多框架进行坐标回归的时候往往是在比较高层（high-level)的特征图像进行。例如FPN（如下图a部分），我想要到达P5，我们需要经过整个backbone，假设是...
复制链接

扫一扫