一. 简介
SuperParsing是一种图像理解的算法,它可以对对象内的物体进行label,label的种类可以有成百上千种,更主要的是,这种label是像素级的。
将图片中的目标分为两类:
(1) stuff类:占据大量像素,在图片集中实例很多,没有固定的形状(shape)但是有相对一致的纹理特征,比如天空、道路、建筑物、树林。
这一类中的类别较少,一般的方法对这类的分类用像素或区域(region)级别的特征。
(2)thing类:在图片中占据较少像素,图片集中实例并不是很多,但是类别众多,是理解的重点,比如人、狗、车辆、标志牌等等。
Region级的特征能很好的表征目标整体的形状特点,却不合适形容细节。细节特征更好的特征处理方法是使用滑动窗(sliding window)。文章中
使用的特征提取方法是per-exemplar或者称为exemplar SVMs,详细的介绍在文献[4]中。这种特征提取方法可以将目标的边缘详细勾勒出,而
不是仅仅给出一个bounding box。在这里,使用region-based和per-exemplar detector分别对图像进行label,得到两个分类的得分,然后用SVM
得到最终的结果,如下图所示。
二 . Region-based 图像理解
具体名称为scalable nonparametric system,内容参考文献[2].
2.1 流程:
(1) 输入query图,提取全局特征;
(2)根据全局特征相似性,在训练集中找出一些类似图片(retrieval set);
(3)将query分割为super pixel;
(4)对每一类,计算super pixel的平均似然概率;
(5)依据super pixel在类似图片中的最近邻匹配,与马尔科夫随机域(MRF)模型结合,对query进行label。