计算机视觉 - 图像编码

最新推荐文章于 2023-06-04 13:03:57 发布

VIP文章 JRRG

最新推荐文章于 2023-06-04 13:03:57 发布

阅读量6.4k

点赞数 4

文章标签：计算机视觉编码

本文链接：https://blog.csdn.net/step_forward_ML/article/details/78217117

版权

图像编码在计算机视觉领域中一直是一个严峻的挑战，至少在深度学习火之前。在众多的视觉任务中，比如识别，检测，跟踪等，都需要提取出辨别的特征表示能更好的运用于后续的模型中。一般来说，最浅层的特征是图像的像素灰度。这种原始的灰度具有很少的语义信息，这严重限制了图像表示的描述能力。因此，大量的纹理特征，结构模式和边缘信息，如SIFT，HOG，LBP等得到了发展。这些特征灵活且相对容易构造，以方便的局部形式捕获了真实图像的大部分复杂统计量。此外，它们具有良好的抵抗遮挡，几何变形和光照变化的能力，并表现出良好的匹配性。然而，它们通常无法检测出图像局部块中最有意义的信息的，并且与图像的高层语义几乎没有关系。因此，许多研究基于这些低层的特征描述考虑了图像的较高级特征提取，如基于BoVW的模型和基于稀疏编码的方法。例如，李飞飞等应用潜在Dirichlet分配（LDA）模型来学习图像的高级语义信息。在这里，图像被视为文档；图像中学习的语义上下文对应于文档中的主题，而低层描述对应于文档中的单词。显然，学习的主题在文档分类中更有用。那么，对于更具复杂结构的图像应如何更好的表示呢？ 2006年出现的深度学习对于自动表征这些复杂的图象非常有用。深度学习通常包含许多隐藏的层次，其表示能力从像素级(pixel-level)能增长到“人类”级(human-level)。显然，这些最终获得的“人类”级表示对后续的视觉任务非常有用。目前，基于深度学习的方法在各种视觉任务中能获得最佳性能。下面主要对相关方法进行一个简单汇总与总结，给自己的后续研究提供思路。

1. Super-vector

该文Image classi fication using super-vector coding of local image descriptors 发表在ECCV2010上。在Vector Quantization (VQ) Coding 的基础上运用泰勒函数展开定理进行了扩展，得到的编码向量被称为Super-Vector。本文假设我们旨在学习被定义在高维空间的一个平滑非线性函数 $f(x)$ ，但在通常情况下用一个线性函数去无限的接近它，即 $f(x)\approx W^T\phi(x)$ ，其中 $\phi(x)$ 将局部描述子 $x$ 非线性映射到高维空间。本文解决的问题就是如何得到一个好的非线性映射 $\phi(x)$ 。
本文模型基于VQ，假设 $x$ 在字典中最接近的视觉单词为第 $k$ 个， $k=\mathop{arg}\min\limits_{j}\left\|x-d_j\right\|$ ，记着 $v=d_k$ 那么 $f(x)$ 在 $x=v$ 出进行泰勒展开

f (x) = f (v) + \nabla f (v) T (x - v) + β 2 ∥ x - v ∥ 2

$f(x)=f(v)+\nabla f(v)^T(x-v)+\frac{\beta}{2}\left\|x-v\right\|^2$
由于

x $x$ 接近于

v $v$ ，则

f(x)≈f(v)+∇f(v)T(x−v) $f(x)\approx f(v)+\nabla f(v)^T(x-v)$ 。可知误差来自于

∥x−v∥2 $\left\|x-v\right\|^2$ ，我们可以采用字典的监督学习来降低误差。最后

f (x) \approx f (v) + \nabla f (v) T (x - v) = W T ϕ (x)

$f(x)\approx f(v)+\nabla f(v)^T(x-v)=W^T\phi(x)$
其中

ϕ(x) $\phi(x)$ 称为Super-Vector，定义为

ϕ (x) = [0, 0, \dots, 0, 1, x - v        第 k 类, 0, \dots, 0, 0]

$\phi(x)=[0,0,\nonumber\cdots,0,\underbrace{1,x-v}_{\text{第k类}},0,\nonumber\cdots,0,0]$
以上都是基于VQ，很自然我们会联想到Soft-VQ，那么

f (x) \approx \sum k = 1 C P k (x) [f (v k) + \nabla f (v k) T (x - v k)] = W T ϕ (x)

$f(x)\approx \sum\limits_{k=1}^C P_k(x)[f(v_k)+\nabla f(v_k)^T(x-v_k)]=W^T\phi(x)$
在实验中，128-dimensional SIFT特征被提取并通过PCA被降维到80-dimensional。

Pk(x) $P_k(x)$ 只选取top-20，其余的设置为0。最后发现Soft-Super-Vector的分类正确率比VQ高出20\%。

2. Locally Linear KNN Model

该文A novel locally linear knn model for visual recognition 发表在CVPR2015上。在Locally-constraint 稀疏表示模型的基础上做了进一步的改进，模型表示为

min α ∥ x - D α ∥ 2 + λ ∥ α ∥ 1 + μ ∥ α - β s ∥ 2

$\min\limits_\alpha {\left\| x-D\alpha \right\|}^2+\lambda {\left\| \alpha \right\|}_1 + \mu {\left\| \alpha-\beta s \right\|}^2$
其中

s $s$ 为样本数据

x $x$ 与字典

D $D$ 各列之间的相似性度量，第

i $i$ 个元素值为

si=exp{ −12σ2∥x−di∥2} $s_i=exp\{-\frac{1}{2\sigma^2} {\left\| x-d_i \right\|}^2\}$ 。模型的直观解释为希望得到的稀疏表示跟样本与字典的相似性想吻合，即分配给最近的字典列较大的系数。字典为各个类别的训练数据组合而成。
测试过程中采用传统的最小化重构误差，但在之前需将测试样本的稀疏表示进行cut-off，即每一个类别中的系数

αi $\alpha_i$ 只保留top

k $k$ largest values。
值得注意的是，这个训练过程是在

{xi,yi}Ni=1 $\{x_i,y_i\}_{i=1}^N$ 数据集上进行。当面对大分辨率的图像数据集时，一般采用spatial pyramid feature或fisher vector等等，再使用MFA(marginal fisher analysis) with PCA 进行将维。

3.Weighted Sparse Coding for Saliency Detection

该文A weighted sparse coding framwork for saliency detection 发表在CVPR2015上。提出了利用稀疏表示模型用于图像的显著性区域检测。构造显著性字典/非显著性字典进行稀疏编码，利用稀疏系数定义显著性值。作者在标准的稀疏表示模型下，引入了权重因子

α i = a r g min α i ∥ f i - D α i ∥ 22 + λ ∥ d i a g (ω i) * α i ∥ 1

$\alpha_i=arg \min\limits_{\alpha_i}\left\|f_i-D\alpha_i\right\|_2^2+\lambda\left\|diag(\omega_i)*\alpha_i\right\|_1$
注意到优化上述目标函数时，当

ωi $\omega_i$ 很大时将会压缩

αi $\alpha_i$ 的值。换句话，应该使

ωi $\omega_i$ 值与

fi $f_i$ 与字典的相似性成反比。该目标函数使得与字典相似的信号对应的稀疏系数更大，即信号的重构误差更小。那么文中是如何识别出图像中

I $I$ 的显著性区域呢？很简单

对图像 I

最低0.47元/天解锁文章

JRRG

关注

4
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
计算机视觉 - 图像编码

图像编码在计算机视觉领域中一直是一个严峻的挑战，至少在深度学习火之前。在众多的视觉任务中，比如识别，检测，跟踪等，都需要提取出辨别的特征表示能更好的运用于后续的模型中。一般来说，最浅层的特征是图像的像素灰度。这种原始的灰度具有很少的语义信息，这严重限制了图像表示的描述能力。因此，大量的纹理特征，结构模式和边缘信息，如SIFT，HOG，LBP等得到了发展。
复制链接

扫一扫