Path Aggregation Network for Instance Segmentation 论文笔记

最新推荐文章于 2024-04-10 22:04:28 发布

头柱碳只狼

最新推荐文章于 2024-04-10 22:04:28 发布

阅读量317

点赞数

分类专栏：目标检测

本文链接：https://blog.csdn.net/qq_30146937/article/details/106245116

版权

本文详细解读了PANet论文，针对Mask R-CNN中信息传递的局限，提出了bottom-up增强路径和自适应特征池，旨在缩短特征层级之间的距离并充分利用各层级信息。通过构建新的特征融合路径和自适应池化策略，PANet提高了实例分割的性能，并且其结构可以应用于目标检测任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

作者认为在Mask R-CNN中的信息传递过程可以得到进一步提升。一般来说，低级特征有助于识别较大的目标，但低级特征到高级特征的路径太长了，这增加了定位信息流动的难度。而且，每个proposal是基于某一个特征层级得到的，而具体将proposal分配到哪个特征层级，这是一个启发式的分配过程。这个分配过程其实是不太合理的，因为在其它没有使用的特征层级中会有一些信息，这些信息对于最终的预测来说可能会有所帮助。另外，Mask R-CNN中的mask预测分支仅在单层特征图上（single view），这失去了收集不同信息的机会。

基于此，本文提出PANet，它的结构如下图所示：
在这里插入图片描述

通过建立bottom-up增强路径（图b）来缩短信息传递的路径，利用低级特征中的准确的定位信息，增强特征金字塔的结构。
建立自适应特征池（图c），以恢复每个proposal与所有的特征层级之间被破坏的信息路径，也就是将每个proposal与所有的特征层级关联起来，为每个proposal聚合来自所有特征层级的特征，不再是以前那种自适应分配。
使用一个小型全连接层来增强mask预测（图e），以捕获每个proposal的不同view，它与Mask R-CNN中使用的FCN有互补作用。这样就可以得到两个view：来自fc的view，和来自FCN的view，通过融合这两个view的预测结果，可以增强信息的多样性，mask的质量也能得到提高。

网络结构

PANet的框架如下图所示：
在这里插入图片描述
和FPN一样，PANet带来的性能上的提升和CNN的结构是没有关系的。

1. bottom-up增强路径

一般来说，高层的神经元对整个目标响应，而其它层的神经元更可能是被局部图像激活，因此构建一条top-down通路，以传播高层的语义特征是非常有必要的，这样可以增强FPN中所有层级的特征的分类能力。本文通过传播低级特征对边或部分目标的响应，进一步增强了整个特征层级的定位能力。

如下图所示，左边是FPN，右边是本文提出的bottom-up增强路径。绿色的虚线就是本文构建的特征融合路径，它跨越的卷积层很少，连10个都不到；红色虚线是FPN中的特征融合路径，从底层到高层共跨越了一百多层。本文的bottom-up路径缩短了底层特征到高层特征的距离，能实现更有效的特征融合。
在这里插入图片描述
接下来说一下具体如何构建这条bottom-up通路。和FPN一样，在同一个stage中的卷积层生成的特征图的空间大小是相同的，每个特征层级对应一个stage，使用 $\lbrace P_2,P_3,P_4,P_5 \rbrace$ 表示FPN生成的特征层级。bottom-up通路从

最低0.47元/天解锁文章