目标检测--通过增加细节信息通道提高包围框的回归精度(PANet)

23 篇文章 0 订阅
22 篇文章 0 订阅

0 关于PANet有几个点需要注意

  • 这是一个two stage的模型,是mast r-cnn的改进;乍一看还以为RetinaNet的改进。
  • 中间用的是roi align;
  • 除了加入一个绿色信息通道,其实对于细节定位的另外一个提高是自适应特征池化(Adaptive feature pooling),这个模块非常重要。

1 FPN对细节信息的损失

在目标检测中包围框的回归是一个比较常用的方法,例如R-CNN、FPN等都是用回归来预测包围框。

我们知道,回归坐标比较需要底层(low-level)的细节信息,相对来说语义信息对目标的分类起更大的作用。而很多框架进行坐标回归的时候往往是在比较高层(high-level)的特征图像进行。

例如FPN(如下图a部分),我想要到达P5,我们需要经过整个backbone,假设是resnet50,那么我们大概需要经过50个conv层,想到达P4也需要非常多的卷积。所以p5到p3的细节信息损失是比较多的

在这里插入图片描述

2 增加一条绿色信息通道

因此作者想到了,增加一条"绿色"的细节信息(特征)通道,来提供坐标回归所需要的细节信息。(如上图b所示)。

这样大大增加了坐标回归的精度,并且计算量没有增加多少,网络改动也不大。并且类别语义信息还会继续通过红色路径传递过来。这个绿色通道还有个作用就是特征融合,因为可以是先结合左边的特征,然后向上传播。

EfficientDet也采用了这种方法。最后实验表明回归框精度提高。

3 自适应特征池化adaptive feature pooling

结构如下:
在这里插入图片描述
可以看到,图中写了ROIAlign,灰色的区域就是region proposal对应的特征图中的区域,然后通过ROIAlign进行pooling。fc1我觉得可以理解为一个reshape的过程,把正方形拉成直线,因为在CSPNet论文中提到了,使用了SPP(Spatial Pyramid Pooling,空间池化金字塔),那么spp就估计是使用在这里。

那么fpn上不同层的特征经过ROIAlign以后如何fusion(融合)呢,这里采用逐像素的做max或者add。

融合后的特征,然后在做分类或者mask预测。

这里使用自适应特征池化是为了将细节和高层语义信息融合,文章说:

在FPN中,依据候选区域的大小将候选区域分配到不同特征层次。这样小的候选区域分配到low-level,大的候选区域分配到high-level,这虽然简单但却很有效,但这可能会产生非最优结果。例如两个具有10个像素差的候选区域可能分配到不同特征层次,实际上,这两个候选区域非常相似。

进一步,特征的重要性可能与他们所属的特征层次没有太大关系。

  • High-level特征具有大的接受野并捕获了丰富的上下文信息。允许小型候选区域获取这些特征更好的使用上下文信息做预测

  • low-level特征具有许多微小细节和高定位精度。这允许大型侯选区域获取这些特征,这显然是有益的。

也就是说,无论是high还是low的feature都有用。有了这样的想法,对于每个候选区域,我们提出了池化来自所有层次的特征,然后融合它们做预测,这称之为adaptive feature pooling(自适应特征池化).

3 引用

  1. PANet
  2. EfficientDet
  3. https://blog.csdn.net/u011974639/article/details/79595179
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值