主要介绍实例分割,若有错误敬请指出
PointRend主要改进了Mask R-CNN 的Mask head,在Mask R-CNN的基础上,对图像中的实例边界上的点进行预测,从而生成一个更精细的mask(主要体现在边界上),能较好的提高实例分割的精度。
主要分为两部分介绍:
- Mask R-CNN backbone
- PointRend
Mask R-CNN backbone
PointRend实际上只是Mask R-CNN预测mask的一个分支,首先介绍backbone。
Mask R-CNN的backbone为ResNet50+FPN,也就是提取图像特征的网络架构,FPN为特征金字塔(top- down)和ResNet50结合(bottom- up)能输出多个尺度的feature map,这些输出的特征图按分辨率从大到小排序分别叫:P2、P3、P4、P5,在目标检测任务中可以更好地检测不同大小的实例(目标)。
若输入图像尺寸为224×224×3,通过ResNet50输出为7×7×256,输入FPN特征金字塔,输出对应P2、P3、P4、P5为56×56×256,28×28×256,14×14×256,7×7×256的feature maps。
然后将得到的这些feature maps送入RPN计算候选框(proposals),然后结合这些proposals得到proposal feature maps,最后送入ROI Align得到对齐以后固定大小的7×7×256