文章来源: CVPR2019 – Content-Aware Multi-Level Guidance for Interactive Instance Segmentation
Motivation
在经典的基于deep learning的交互式分割框架中, 交互信息通常变换成guidance map, 然后concentrate在图像的RGB上作为网络的输入. 一般guidance map是通过简单的距离变换生成的(欧氏距离,高斯距离甚至是测地距离等), 因此具有太局部没有信息价值的缺陷. 所以更好的guidance map需要利用到丰富的图像层级结构信息.
Method
利用图像信息的层级结构, 从基于superpixel的low-level信息(外形和纹理)开始, 到high-level信息(类别不相关的物体假设). 这样可以形成考虑物体尺度的guidance map.
-
Superpixel-based guidance map
说到底,就是把原来的基于图像像素点的距离变换变成基于包含当前像素点的超像素的距离变换. 通过该过程, 生成的超像素能够考虑局部的图像结构信息. -
Object-based guidance map
上述的superpixel-based guidance map在形成superpixel时没有考虑物体的分类信息. 所以可以通过引入object proposal的思路(弱监督的感觉), 形成object-based guidance map.
-
Scale-aware guidance
首先是需要一个对物体scale的粗略的假设, 然后需要让superpixel-based和object-based guidance map能够对该尺度有一致性的相应. 具体来说, 给上述两种guidance map一些忍受性,然后类似于做一个阈值处理.
My Conclusion
其实说到底, 这篇文章其实生成guidance map的过程就是 利用user annotation如何形成无监督的object proposal(包含superpixel-level), 自然这样的proposal肯定会比直接用距离变换去做的效果更好.
从另一个角度看, 该算法成立需要依赖于一些很好的图像先验知识: 如superpixel区域内的一致性, object proposal的鲁棒性等等. 所以在实际使用的时候, 如果遇到图像质量较差内容复杂等情况,可能生成的guidance map达不到paper中的效果.