图像编码在计算机视觉领域中一直是一个严峻的挑战,至少在深度学习火之前。在众多的视觉任务中,比如识别,检测,跟踪等,都需要提取出辨别的特征表示能更好的运用于后续的模型中。一般来说,最浅层的特征是图像的像素灰度。这种原始的灰度具有很少的语义信息,这严重限制了图像表示的描述能力。因此,大量的纹理特征,结构模式和边缘信息,如SIFT,HOG,LBP等得到了发展。这些特征灵活且相对容易构造,以方便的局部形式捕获了真实图像的大部分复杂统计量。此外,它们具有良好的抵抗遮挡,几何变形和光照变化的能力,并表现出良好的匹配性。然而,它们通常无法检测出图像局部块中最有意义的信息的,并且与图像的高层语义几乎没有关系。因此,许多研究基于这些低层的特征描述考虑了图像的较高级特征提取,如基于BoVW的模型和基于稀疏编码的方法。例如,李飞飞等应用潜在Dirichlet分配(LDA)模型来学习图像的高级语义信息。在这里,图像被视为文档;图像中学习的语义上下文对应于文档中的主题,而低层描述对应于文档中的单词。显然,学习的主题在文档分类中更有用。那么,对于更具复杂结构的图像应如何更好的表示呢? 2006年出现的深度学习对于自动表征这些复杂的图象非常有用。深度学习通常包含许多隐藏的层次,其表示能力从像素级(pixel-level)能增长到“人类”级(human-level)。显然,这些最终获得的“人类”级表示对后续的视觉任务非常有用。目前,基于深度学习的方法在各种视觉任务中能获得最佳性能。下面主要对相关方法进行一个简单汇总与总结,给自己的后续研究提供思路。
1. Super-vector
该文Image classi fication using super-vector coding of local image descriptors 发表在ECCV2010上。在Vector Quantization (VQ) Coding 的基础上运用泰勒函数展开定理进行了扩展,得到的编码向量被称为Super-Vector。本文假设我们旨在学习被定义在高维空间的一个平滑非线性函数 f(x) ,但在通常情况下用一个线性函数去无限的接近它,即 f(x)≈WTϕ(x) ,其中 ϕ(x) 将局部描述子 x 非线性映射到高维空间。本文解决的问题就是如何得到一个好的非线性映射
本文模型基于VQ,假设 x 在字典中最接近的视觉单词为第
由于 x 接近于
其中 ϕ(x) 称为Super-Vector,定义为
以上都是基于VQ,很自然我们会联想到Soft-VQ,那么
在实验中,128-dimensional SIFT特征被提取并通过PCA被降维到80-dimensional。 Pk(x) 只选取top-20,其余的设置为0。 最后发现Soft-Super-Vector的分类正确率比VQ高出20\%。
2. Locally Linear KNN Model
该文A novel locally linear knn model for visual recognition 发表在CVPR2015上。在Locally-constraint 稀疏表示模型的基础上做了进一步的改进,模型表示为
其中 s 为样本数据
测试过程中采用传统的最小化重构误差,但在之前需将测试样本的稀疏表示进行cut-off,即每一个类别中的系数 αi 只保留top k largest values。
值得注意的是,这个训练过程是在
3.Weighted Sparse Coding for Saliency Detection
该文A weighted sparse coding framwork for saliency detection 发表在CVPR2015上。提出了利用稀疏表示模型用于图像的显著性区域检测。构造显著性字典/非显著性字典进行稀疏编码,利用稀疏系数定义显著性值。作者在标准的稀疏表示模型下,引入了权重因子
注意到优化上述目标函数时,当 ωi 很大时将会压缩 αi 的值。换句话,应该使 ωi 值与 fi 与字典的相似性成反比。该目标函数使得与字典相似的信号对应的稀疏系数更大,即信号的重构误差更小。那么文中是如何识别出图像中 I 的显著性区域呢?很简单
- 对图像
I