计算机视觉 - 字典学习

最新推荐文章于 2024-06-28 07:53:22 发布

JRRG

最新推荐文章于 2024-06-28 07:53:22 发布

阅读量2.8k

点赞数 3

文章标签：计算机视觉字典学习

本文链接：https://blog.csdn.net/step_forward_ML/article/details/78410138

版权

本文概述了计算机视觉领域的字典学习，特别是监督方法。从统一字典学习（SDL、D-KSVD、LC-KSVD）到子字典学习（FDDL、DL with structured incoherence、基于监督的重构能量约束），再到局部图拉普拉斯约束的低秩表示聚类和相互关联的视觉字典学习。每种方法都针对不同的问题，如分类、聚类和目标识别，通过优化目标函数和损失函数来提升模型的辨别能力。

摘要由CSDN通过智能技术生成

在稀疏编码中，字典的学习至关重要。监督的字典学习方法大致可以分为3类。第一类为学习出针对所有信号的一个统一字典(universal dictionary)。该方法将字典学习与分类器训练完美的糅合为一个目标函数优化问题，旨在通过学习出的字典将信号的高维表示变得更加可分，可表示为

L (D, θ) = min D, θ \sum i = 1 N ℓ (y i, f (x i, ψ (x i, D), θ)) + λ ∥ θ ∥ 22

$L(D,\theta)=\mathop {\min }\limits_{D,\theta} \sum\limits_{i = 1}^N \ell(y_i,f(x_i,\psi(x_i,D),\theta))+\lambda{\left\| \theta \right\|}_2^2$
其中

ℓ $\ell$ 为损失函数，

f $f$ 为分类器，

ψ $\psi$ 为信号的高维表示。此方法求解复杂度高，一般通过不断迭代得到一个近似解。尤其当类别数目比较多时，训练一个统一的字典和分类器将会非常耗时和低效。第二类方法为针对每一类别的信号学习出相应的子字典(category-specific dictionary)。在学习过程中综合考虑信号的重构误差、稀疏度，以及结合不同类别信号的soft-max，fisher criteria，不同类别字典的不相关性，信号的类别约束等等，可表示为

L (D, A) = min D, A \sum i = 1 C {∥ X i - D A i ∥ 2 F + λ ∥ A i ∥ 1} + S (A)

$L(D,A)=\mathop {\min }\limits_{D,A} \sum\limits_{i = 1}^C {\{\left\| X_i-DA_i \right\|}_F^2+\lambda{\left\| A_i \right\|}_1\}+S(A)$
其中

D=[D1,⋯,DC] $D=[D_1,\nonumber\cdots,D_C]$ ，

A=[A1,⋯,AC] $A=[A_1,\nonumber\cdots,A_C]$ ，

S $S$ 为给类别辨别能量(discriminative power) 函数。此方法能得到较好识别度的信号高维表示，但在测试过程中进行稀疏编码时只能考虑重构误差、稀疏度。其典型应用MCA，人脸识别。第三类即为前两类的结合。

1. SDL

文献 Supervised dictionary learning 发表于NIPS2009，属于第一类。文中的分类器 $f$ 采用 $f(x,\alpha,\theta)=\theta^T\alpha+b,\theta\in R^k$ 或 $f(x,\alpha,\theta)=x^T\theta\alpha+b, \theta \in R^{m \times k}$ ，信号的高维表示则采用稀疏表示模型，而最重要的损失函数采用的是logistics loss function， $C(x)=\log(1+\varrho^{-x})$ 。则最终的目标函数可变为

min D, θ, α \sum i = 1 N {C (y i f (x i, θ, α i)) + λ 0 ∥ x i - D α i ∥ 22 + λ 1 ∥ α i ∥ 1} + λ 2 ∥ θ ∥ 22

$\min\limits_{D,\theta,\alpha} \sum\limits_{i=1}^N \{C(y_if(x_i,\theta,\alpha_i))+\lambda_0{\left\| x_i-D\alpha_i \right\|}_2^2+\lambda_1{\left\| \alpha_i \right\|}_1 \}+\lambda_2 {\left\| \theta \right\|}_2^2$
值得注意的是

yi∈{ −1,1} $y_i\in\{-1,1\}$ ，前3项在式中称为损失函数

ℓ $\ell$ 。在测试时，通过学习到的字典进行稀疏编码，在通过下式预测样本类别。可统一的表示为

y = a r g min y \in {- 1; 1}, θ ℓ (y, f (ψ (x, D), θ))

$y=\mathop{arg\min}\limits_{y\in\{-1;1\},\theta} \ell(y,f(\psi(x,D),\theta))$
从上可知，比较该样本在不同类别下的损失函数值而预测样本。所以如果二者差值更大，那么就更加可分，继续优化得到：

L (D, θ) = min D, θ \sum i = 1 N {C (ℓ (- y i, f (x i, ψ (x i, D), θ)) - ℓ (y i, f (x i, ψ (x i, D), θ)))} + λ ∥ θ ∥ 22

$L(D,\theta)=\mathop {\min }\limits_{D,\theta} \sum\limits_{i = 1}^N \{C(\ell(-y_i,f(x_i,\psi(x_i,D),\theta))-\ell(y_i,f(x_i,\psi(x_i,D),\theta)))\}+\lambda{\left\| \theta \right\|}_2^2$
可以发现此式更难求解。可以将上式推广到多类别：a.直接法，则损失函数采用softmax discriminative cost function，如下式

C i (x 1, \dots, x p) = log (\sum j = 1 p e x j - x i)

$C_i(x_1,\nonumber\cdots,x_p)=\log(\sum\limits_{j=1}^p e^{x_j-x_i})$
针对每一类别学习一个模型

θi $\theta_i$ ，如何求解真是个问题；b.one-vs-all 或者 one-vs-one。其中图中的

S $S$ 函数即为文中定义的损失函数

ℓ $\ell$ 。大致分为两个步骤：

固定 $D$ ，进行监督稀疏编码 $\alpha$
固定 $\alpha$ ，采用投影梯度下降法(projected gradient descent)更新字典 $D$ 和模型 $\theta$

2. D-KSVD

该文Discriminative k-svd for dictionary learning in face recognition 发表在CVPR2010。方法算是对上述论文模型的简化，也属于第一类。损失函数没有采用logistic loss function，而是采用了更为简单类似于平方误差的损失函数，即 $\ell(y_i,f(x_i,\psi(x_i,D),\theta))={ \left\| y_i- f(x_i,\psi(x_i,D),\theta) \right\| }_2$ ，那么目标优化函数可以改写为