1. 两两邻接的物体之间的顺序恢复。有了pair-wise ordering之后,我们就可以得到一个描述场景遮挡关系的有向图,称之为遮挡关系图(occlusion graph)。
2. Amodal completion。在遮挡关系图中,我们可以检索到任意一个物体被哪些物体遮挡了,这样我们就可以进行amodal completion步骤,把物体完整的mask恢复出来。
3. Content completion。有了amodal mask之后,我们就知道了物体的被遮挡区域(不可见部分),那么下一步就可以想办法在不可见部分填充RGB内容,使得这个物体完整的样子被恢复出来。
我们现在有的数据包括RGB的图片,modal mask和物体类别。modal mask是指物体可见部分的mask,其实就是一般意义的instance segmentation的mask。这些其实正好构成了一个instance segmentation的数据集,例如COCO,KITTI,LVIS这些。注意这样的数据集里并没有遮挡关系和amodal mask的标注,所以用有监督学习的思路是无法解决上述问题的。
各种链接:
论文:https://arxiv.org/abs/2004.02788
代码:https://github.com/XiaohangZhan/deocclusion
Demo视频(YouTube):https://www.youtube.com/watch?v=xIHCyyaB5gU
Demo视频(B站):https://www.bilibili.com/video/BV1JT4y157Wt