PointRend图像分割论文实例分割部分解读

最新推荐文章于 2023-04-13 15:34:08 发布

qq_44700408

最新推荐文章于 2023-04-13 15:34:08 发布

阅读量1.1k

点赞数 1

分类专栏：笔记文章标签：计算机视觉目标检测深度学习

本文链接：https://blog.csdn.net/qq_44700408/article/details/121800708

版权

本文解析PointRend论文，它改进了Mask R-CNN的mask预测，通过采点、点特征表示和点预测网络，提高实例分割的边界精度。PointRend在训练和推理阶段采用不同采点策略，结合细粒度和粗预测特征，生成高分辨率的实例mask。

摘要由CSDN通过智能技术生成

主要介绍实例分割，若有错误敬请指出

PointRend主要改进了Mask R-CNN 的Mask head，在Mask R-CNN的基础上，对图像中的实例边界上的点进行预测，从而生成一个更精细的mask（主要体现在边界上），能较好的提高实例分割的精度。
主要分为两部分介绍：

Mask R-CNN backbone
PointRend

Mask R-CNN backbone

PointRend实际上只是Mask R-CNN预测mask的一个分支，首先介绍backbone。

Mask R-CNN的backbone为ResNet50+FPN，也就是提取图像特征的网络架构，FPN为特征金字塔（top- down）和ResNet50结合（bottom- up）能输出多个尺度的feature map，这些输出的特征图按分辨率从大到小排序分别叫：P2、P3、P4、P5，在目标检测任务中可以更好地检测不同大小的实例（目标）。

若输入图像尺寸为224×224×3，通过ResNet50输出为7×7×256，输入FPN特征金字塔，输出对应P2、P3、P4、P5为56×56×256，28×28×256，14×14×256，7×7×256的feature maps。

然后将得到的这些feature maps送入RPN计算候选框（proposals），然后结合这些proposals得到proposal feature maps，最后送入ROI Align得到对齐以后固定大小的7×7×256