2DPCA


(本篇博客来自于Two-Dimensional PCA:A New Approach to Appearance-Based Face Representation and Recognition论文,是自己在完成老师任务时经过查阅资料自行整理翻译的笔记,如有错误,请联系我,此笔记仅用于学习,如需转载,请注明来源,谢谢!)

1、引言

2DPCA是针对2D图像矩阵而不是1-D向量,因此不需要将图像矩阵拉直成向量进行特征抽取,而是直接使用原始图像矩阵构造图像协方差矩阵。

2、2DPCA的思想和算法

首先定义 X X X是一个 n n n维的酉向量,我们的思想是将图像矩阵 A ( m × n ) A(m\times n) A(m×n)通过以下的线性变换投影到 X X X上:
Y = A X Y=AX Y=AX
投影后,获得一个 m m m维的 Y Y Y,它被称为图像矩阵 A A A的投影特征向量。但是,如何确定一个好的投影向量 X X X呢?事实上,投影样本的总体分散程度可以用来测量投影向量 X X X的分辨能力。投影样本的总体分散程度可以用投影特征向量的协方差矩阵的迹来表征。从这个观点出发,我们得到以下标准:
J ( X ) = t r ( S x ) J(X)=tr(S_x) J(X)=tr(Sx)
其中, S x S_x Sx表示训练样本的投影特征向量的协方差矩阵。
S x = E [ ( Y − E Y ) ( Y − E Y ) T ] = E [ ( A − E A ) X ] [ ( A − E A ) X ] T S_x=E[(Y-EY)(Y-EY)^{T}]=E[(A-EA)X][(A-EA)X]^{T} Sx=E[(YEY)(YEY)T]=E[(AEA)X][(AEA)X]T
因此,
t r ( S x ) = X T [ E ( A − E A ) T ( A − E A ) ] X tr(S_x)=X^{T} [E(A-EA)^{T}(A-EA)]X tr(Sx)=XT[E(AEA)T(AEA)]X

注意: S x S_x Sx的迹表示Y的分量的方差和,最大化上述标准的意义在于最大化方差。我们的目的是找到一个投影方向 X X X,所有的样本都投影到上面,投影之后的样本点的总体分散程度要最大化。

定义下列矩阵:
G t = E [ ( A − E A ) T ( A − E A ) ] G_t = E[(A-EA)^{T}(A-EA)] Gt=E[(AEA)T(AEA)]
G t G_t Gt称为图像协方差矩阵(图像散度矩阵)。由定义可知, G t G_t Gt是一个 n × n n \times n n×n的非负定矩阵。可以利用训练样本直接计算 G t G_t Gt

假设总共有 M M M个图像训练样本,第 j j j个训练图像表示为 A j ( j = 1 , . . . , M ) A_j(j=1,...,M) Ajj=1,...,M),所有训练样本的平均图像表示为 A ˉ \bar{A} Aˉ,然后
G t = 1 M Σ j = 1 M ( A j − A ˉ ) T ( A j − A ˉ ) G_t = \frac{1}{M}\Sigma_{j=1}^{M} (A_j-\bar{A})^{T} (A_j-\bar{A}) Gt=M1Σj=1M(AjAˉ)T(AjAˉ)

因此,最大化标准变为:
J ( X ) = X T G t X J(X) = X^T G_tX J(X)=XTGtX
其中 X X X是一个酉向量,这个标准也成为广义最大散度准则(generalized total scatter criterion)。 X X X称为最优投影轴(optimal projection axis)。直观上理解就是,当图像矩阵投影到 X X X之后,投影样本的总体散度达到最大(散度用方差度量,类似于PCA)。

最优的投影轴 X o p t X_{opt} Xopt是一个酉向量最大化 J ( X ) J(X) J(X),也就是说, X o p t X_{opt} Xopt G t G_t Gt的最大特征值所对应的特征向量。但一般来说,仅有一个最优投影轴是不够的,我们通常需要选择一组投影轴, X 1 , X 2 , . . . X_1,X_2,... X1,X2,...,而且,这些轴收到正交约束和最大化 J ( X ) J(X) J(X)的标准,也即是说:
{ { X 1 , . . . , X d } = a r g m a x J ( X ) X i T X j = 0 i ≠ j , i , j = 1 , . . . , d \begin{cases} \{X_1,...,X_d \} =argmax J(X)& \\ X_i^{T} X_j =0& i \neq j, i,j=1,...,d \\ \end{cases} {{X1,...,Xd}=argmaxJ(X)XiTXj=0i=j,i,j=1,...,d

事实上,最优投影轴就是 G t G_t Gt的前d个最大的特征值所对应的正交特征向量。

3、特征抽取(feature extraction)

2DPCA的最优投影轴 X 1 , . . . , X d X_1,...,X_d X1,...,Xd常常用来特征抽取。假设给定一个图像矩阵 A A A,定义:
Y k = A X k , k = 1 , 2 , . . . , d Y_k = AX_k,k = 1,2,...,d Yk=AXk,k=1,2,...,d
然后,我们便获得一组投影特征向量 Y 1 , . . . , Y d Y_1,...,Y_d Y1,...,Yd,通常称为样本图像矩阵 A A A的主成分。我们应该可以注意到:2DPCA每一个主成分是一个向量,然而PCA的每一个主主成分是一个标量。

获得的主成分向量构成一个矩阵 B = [ Y 1 , . . . , Y d ] B=[Y_1,...,Y_d] B=[Y1,...,Yd],此矩阵被称为图像A的特征矩阵或者特征图像

4、分类方法

在经过2DPCA变换之后,每一个图像都可以获得特征矩阵,通常使用最近邻分类器进行分类。任意两个特征矩阵的距离定义为:
d ( B i , B j ) = Σ k = 1 d ∣ ∣ Y i ( i ) − Y j ( i ) ∣ ∣ 2 d(B_i,B_j)=\Sigma_{k=1}^{d}||Y_i^{(i)} - Y_j^{(i)}||_2 d(Bi,Bj)=Σk=1dYi(i)Yj(i)2
∣ ∣ Y i ( i ) − Y j ( i ) ∣ ∣ 2 ||Y_i^{(i)} - Y_j^{(i)}||_2 Yi(i)Yj(i)2表示欧式距离。

5、基于2DPCA的图像重构

假设图像协方差矩阵 G t G_t Gt的前d个最大的特征值所对应的正交特征向量为 X 1 , . . . , X d X_1,...,X_d X1,...,Xd,在图像样本被投影到这些轴之后,结果主成分向量 Y k = A X k , k = 1 , 2 , . . . , d Y_k = AX_k,k = 1,2,...,d Yk=AXk,k=1,2,...,d。定义 V = [ Y 1 , Y 2 , . . . , Y d ] V = [Y_1,Y_2,...,Y_d] V=[Y1,Y2,...,Yd], U = [ X 1 , X 2 , . . . , X d ] U = [X_1,X_2,...,X_d] U=[X1,X2,...,Xd],有
V = A U V = AU V=AU

因为 X 1 , . . . , X d X_1,...,X_d X1,...,Xd是正交的,因此,容易得到样本 A A A的重构图像:
A ~ = V U T = ∑ k = 1 d ( Y k X k T ) \widetilde{A}=VU^{T}=\sum_{k=1}^{d}(Y_{k}X_{k}^{T}) A =VUT=k=1d(YkXkT)

定义 A ~ k = Y k X k T , k = 1 , 2 , . . . , d \widetilde{A}_{k} = Y_{k}X_{k}^{T},k = 1,2,...,d A k=YkXkT,k=1,2,...,d,代表A的重构子图片,也就是说,可以图像A可以通过添加前d个子图像来对A进行近似重构。特别地,当选择的主成分数量 d = n d = n d=n时,重构图像 A ~ = A \widetilde{A}=A A =A,也就是说,图像被主成分向量完全重构并且没有任何信息损失。否则,如果 d < n d < n d<n,则 A ~ \widetilde{A} A A A A的一个近似。

6、实验(未完待续)

6.1 在ORL数据库上的实验

6.2 在AR数据库上的实验

AR人脸数据库包含126人(70名男性和56名女性)的4000多张彩色人脸图像,包括不同面部表情、光照条件和遮挡情况的正面视图。大部分的图像是分两个部分(间隔两周)拍摄的。每个部分包含13张彩色图像,其中有120人(65名男子和55名妇女)参加了两次拍摄。在我们的实验中,我们选取了这120个个体的图像并加以使用。这里只考虑完整的面部图像(没有尝试在每个会话中处理遮挡的人脸识别)。我们手动裁剪图像的脸部部分,然后将其规格化为50x40像素。
在这里插入图片描述
(该图片来自2DPCA的原作论文)
第一行的图片(a,b,c,d,e,f,g)来自第一部分,第二行的图片(n,o,p,q,r,s,t)来自第二部分. a:自然表情;b:微笑;c:生气;d:尖叫;e:左侧打光;f:右侧打光;g:所有侧面都打光;(n,o,p,q,r,s,t)图片的表情和上述一样,仅仅是不同时间拍摄的而已。

6.2.1 随时间变化

在这个实验中,第一部分的图像(a,b,c,d,e,f,g)作为训练集,第二部分的图片(n,o,p,q,r,s,t)作为测试集。因此,训练集和测试集的样本都是840个,此实验的目的是为了比较:在随时间改变的条件下,PCA和2DPCA的性能。

6.2.2 随面部表情变化

这个实验的目的是在于比较:在随面部表情改变的条件下,PCA和2DPCA的性能.
选取(a,b,c,d)和(n,o,p,q)包括了面部表情的变化。因此选择(a)和(n)作为训练集,(b,c,d)和(o,p,q)作为测试集。训练样本数为240.

6.2.3 随光照条件变化

本实验的目的是为了比较:随光照变化的条件下,PCA和2DPCA的性能。(a,e,f,g)和(n,r,s,t)是随光照强度改变而拍摄的照片,因此,在此实验中,从上述任意两个部分中任意选出两张图片作为训练集,剩余图片作为测试集。因此,有16种可能的寻两样本集合,基于这些训练样本,我们做了16次测试,并且对每一个测试中的PCA和2DPCA的性能进行比较。

6.3 在Yale数据库上的实验

该数据库包含15个人的165张图片(每个人有11张不同的图片,是在不同的面部表情和不同的光照条件下拍摄的)。本实验每个图片被手动裁剪成100x80像素。在本实验中,采用的是留一交叉验证策略

6.4 实验结果的评估

上述实验结果显示:2DPCA的识别率高于PCA的识别率,但是这些结果在统计上是显著的吗?基于贝努利模型【2】,使用零假设统计检验对实验结果进行评估。

7 总结和分析

2DPCA比传统的PCA有很多优势:

  • 2DPCA是基于图像矩阵,对于图像特征抽取来说,更简单更直接。
  • 就所有实验的识别准确率来说,2DPCA比PCA更优。尽管在不同的数据库和不同的条件下,2DPCA比PCA结果好这一趋势基本上是一致的,但在某一些实验上,统计上的显著性差异并不是很明显。
  • 2DPCA比PCA在计算上更有效率,能够显著提高图像特征抽取的速度。

但是2DPCA也有一些缺点:

  • 就存储需求而言,基于2DPCA的图像表示并没有PCA有效率,因为2DPCA在图像表示上比PCA具有更多的系数。

最后,2DPCA仍然有值得研究的地方。比如

  • 当PCA主成分较少时,近似与原始的均方误差很小,2DPCA具有类似的特征?
  • 2DPCA比PCA具有更多的系数来表示图像,虽然这一问题可以通过在使用2DPCA plus PCA来进行解决,但是否存在直接对2DPCA进行降维还是个未知数。

参考文献:
【1】Jian Yang, David Zhang, Senior Member,IEEE, Alejandro F.Frangi, and Jing-yu Yang. Two-Dimensional PCA: A New Approach to Appearance-Based Face Representation and Recognition.
【2】J.R. Beveridge, K. She, B. Draper, and G.H. Givens, “Parametric and Nonparametric Methods for the Statistical Evaluation of Human ID Algorithms,” Proc. Third Workshop Empirical Evaluation of Computer Vision Systems, Dec. 2001.

  • 1
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大浪淘沙_scc

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值