《Deep GrabCut for Object Selection》笔记
学习笔记,如有谬误,还请不吝赐教!
解决的问题
图像分割比较难做,即使是深度学习的算法,在分割问题上需要大量像素级标记信息,这就很不人道… 而传统的分割方法中有一类交互式的分割,就是抠图… 这篇文章就是用CNN做interactive的分割。不过它为啥叫GrabCut呢… 讲道理它和GrabCut算法方法没啥关系啊… 可能相同点就是都只需要用户输入感兴趣前景的boundingbox。
基本结构
做分割嘛,要找细节信息,所以还是在原图大小上做掩码比较合适。
所以就是这样一个encode-decode的网络形式
交互式
怎么把boundingbox的信息送进网络呢… 这里比较不错的就是将boundingbox做成了一张Distance map(嗯,并不是这篇文章原创…),然后把这个map和rgb图像concat一下,转换的公式就是
嗯 就不翻译了…
反正这样就使得输入一个boundingbox,就转化出一个map,远比多输入一个四元组强多了(我觉得是这样…)训练的时候就把分割标签转成boundingbox,然后对boundingbox做个扰动(貌似就是