(CVPR,2013) Sketch Tokens: A Learned Mid-level Representation for Contour and Object Detection
这篇文章有两个有意思的思想:
1)划分轮廓时,通常每一个像素点进行的是二分类,是轮廓或者不是轮廓,该文将问题转换为多类分类,一定程度上降低了分类器的难度。2)将人工标注的轮廓信息作为多类分类的类标。但是轮廓有很多种,本文将所有的轮廓转换为有限的类标,是另一个有意思的地方。
该文的思路是:首先将人工标定好的binary图像,按照一个35*35的区域提取patch,每个区域中心需要正好在轮廓上,如此,我们可以得到很多的patch,也即是很多的轮廓形状。那么如何将它们分为有限的分类呢?如何分是合理呢?文章用到了k=150的Kmeans算法,那么要用Kmeans,就要有一个距离度量,文章使用的是Daisy特征。
那么有了合适的类标,即是sketch token,一个样本是一张RGB图像上的一个patch,然后对应的Binary轮廓图像上的patch对应的sketch token。那么接下来怎么训练呢?文中是对RGB图像提取两组feature:
1)features directly indexing into the channels:彩色通道,梯度大小,梯度方向等
2)self-similarity features:
接下来文章用随机森林进行分类,分类的目标是各sketch token的possibility。这样对图像每一个像素进行分类获得各token的possibility以及non-contour的possibility,然后用non-maximal suppression来找到最大响应的contour。