PANet：Path Aggregation Network for Instance Segmentation 阅读

最新推荐文章于 2022-09-20 10:13:05 发布

LonelyRootThree

最新推荐文章于 2022-09-20 10:13:05 发布

阅读量784

点赞数 1

分类专栏：分割深度学习文章标签：论文

本文链接：https://blog.csdn.net/chixia1785/article/details/80393691

版权

深度学习同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

分割

3 篇文章 0 订阅

订阅专栏

框架

本文研究者指出当前最优的 Mask R-CNN 中的信息传播还可以进一步优化。具体来说，低层级的特征对于大型实例识别很有用。但最高层级特征和较低层级特征之间的路径很长，增加了访问准确定位信息的难度。此外，每个建议区域都是基于从一个特征层级池化得到的特征网格而预测的，此分配是启发式的。由于其它层级的丢弃信息可能对于最终的预测还有用，这个流程还有进一步优化的空间。最后，掩码预测仅在单个视野上执行，无法获得更加多样化的信息。

创新点

1. 改进的FPN: Bottom-up Path Augmentation

2. 改进之前的pool策略: Adaptive Feature Pooling

3. 改进mask分支: Fully-connected Fusion+FCN

改进的FPN: Bottom-up Path Augmentation

研究发现，低层级的特征图对预测大物体十分有效。于是在FPN的基础上，增加了一个自下而上的分支，帮助更好地传递底层信息到最高层级。低层级特征在之前的工作中也有被应用，但基本都是为了预测小物体或者精细化一些细节，而低层级特征对于大物体的作用在之前并没有被很认真地探讨过。虽然FPN中P5也间接得有了low-level的特征，但是信息流动路线太长了如红色虚线所示(其中有ResNet50/101很多卷积层)，本文在FPN的P2-P5又加了low-level的特征，最底层的特征流动到N2-N5只需要经过很少的层如绿色需要所示(仅仅有几个降维的卷积)。

改进之前的pool策略: Adaptive Feature Pooling

在FPN那篇论文的解读中我们也讲过FPN从P2-P6(P6仅用作生成proposal，不用作RoIPooling时提取特征)多尺度地生成proposal，然后做RoIPooling时会根据proposal的大小将它分配到不同的level去crop特征，小的proposal去low-level的层，大的proposal去high-level的层。这样做虽然简单也蛮有效，但它不是最好的处理方式，尽管P2-P5(N2-N5)已经融合了low-level和high-level的特征，然后它们的主要特征还是以它本有的level为主这时如果小的proposal能从high-level层获取到更多的上下文语义信息是有利于它分类的，而大的proposal能从low-leve层获取到更好的细节是有利于它定位的。因此本文打算每个proposal从所有level的特征上做RoIPooling，然后在后面融合，融合的阶段和方式都可实验，比如分类时是两个fc，这个融合阶段可以是fuse, fc1, fc2或者fc1, fuse, fc2，融合策略可是sum也可以是max，最后证明fc1, fuse, fc2和max最好。

作者做了个统计，发现某个尺度的决策信息并不是完全来自于对应层级的feature map，绝大多数信息来自于其他层级，所以所有层级的feature map都需要用。文章中作者在不同层级feature map的proposal做ROIAligned之后做逐像素的max operation，算是把不同尺度的feature map fuse together。

改进mask分支: Fully-connected Fusion+FCN

作者认为分割的时候，FCN的方式主要依靠局部感受野，而fully-connect layer对于众多局部信息的组合能够有更好的表达能力（参数更多），能把各个局部的信息组合起来形成proposal的整体。所以作者如图新开一个分支，里面做了一次全连接操作，并且映射到相同的spatial size和FCN的结果相加。作者说只做一次全连接而不是多次是为了防止全连接太多把特征的spatial information给丢失掉了。在两个feature map融合的时候作者把“max”，“sum”，“product”方式均做了实验，发现还是“sum”好。

PS：何恺明同样CVPR2018发的那篇《Learning to Segment Every Thing》也是把MLP和FCN结合做mask prediction，可以说英雄所见略同。

实验

总体的结果，backbone一个ResNet-50就打败了去年的冠军，该算法也是拿到了2017年COCO分割比赛和CItyspace分割的冠军

ms-train指multi-scale training

消融实验结果

adaptive pooling fusion的位置和具体操作的对比实验

MLP的位置以及与FCN具体融合操作的对比实验

参考： https://blog.csdn.net/u013010889/article/details/79485296

LonelyRootThree

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PANet：Path Aggregation Network for Instance Segmentation 阅读

框架本文研究者指出当前最优的 Mask R-CNN 中的信息传播还可以进一步优化。具体来说，低层级的特征对于大型实例识别很有用。但最高层级特征和较低层级特征之间的路径很长，增加了访问准确定位信息的难度。此外，每个建议区域都是基于从一个特征层级池化得到的特征网格而预测的，此分配是启发式的。由于其它层级的丢弃信息可能对于最终的预测还有用，这个流程还有进一步优化的空间。最后，掩码预测仅在单个视野...
复制链接

扫一扫

专栏目录