semantic soft segmentation后处理解析
原创文章,不可转载!!
深度学习部分,采用deeplabv2提取特征,用metric learning的方式,最大化不同类之间的差异,
这里总结一下semantic soft segmentation 后处理分析,paper
深度学习部分没什么好说的,主要就是进行了一个metric learning,最大化不同类别见的特征向量的差异,贴一个结构图。后处理部分,继承[1]中的思路,在构建拉普拉斯矩阵的过程中,使用多个affinity的加权和,本文中使用的是:
- matting laplacian [2]中原版,无任何改动
- nonlocal affinity
- semantic affinity
Nonlocal Affinity
对图片使用 SLIC 进行超像素分割,共2500个超像素,然后取每一个超像素的质心,让每一个质心都和与其距离不超过20%img size的质心计算affinity, 计算方式如下:
Semantic Affinity
同样使用超像素,不过不同的是这里取每一个超像素与其相邻的超像素计算affinity,计算方式如下:
Laplacian matrix -> softSegments
谱分析
根据[2],对拉普拉斯矩阵进行特征分解后,特征值越小的特征向量在构建最后的matte时,所占比重越大(或者说越接近正确答案),最后的segment可以表示为k个拉普拉斯矩阵的最小特征值所对应的加权和,最后的结果可通过优化如下能量函数得到:
本文在这一过程所做的改进:
-
在得到K个特征向量后,[2]对特征向量使用k-means得到优化函数的initial,而本文则是对semantic feature进行k-means得到initial,最后产生大约15-25个初始值,很明显这一改进是想让最后的迭代结果和sematic保持一致,优化求解过程详细参考。请注意,由于优化函数非凸,所以初始解的选取至关重要,而k-means产生的结果有一定的随机性,所以可能最后结果不唯一!!!
-
relaxed sparsification,先使用[2]中的方法,产生5个components,然后放宽约束条件,将能量函数化为二次型,利用pcg得到最后结果。
El,Ec,Ef皆为二次型,Es可近似为二次型,最后求解方程组,向量形式到矩阵形式的变换过程详情看论文。
[1] Designing Effective Inter-Pixel Information Flow for Natural Image Matting
[2] Spectral Matting