1.背景
在sift特征之后,有一种PCA-sift的特征提取,其基本原理和步骤和sift是基本一样的,只是在特征子描述方面,由sift的128维特征描述,利用主成成分分析的方法,降为了36维的特征描述子。下面就简单介绍一些主成成分分析的相关信息。
2.基本原理
主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP(比如p个指标),重新组合成一组较少个数的互不相关的综合指标Fm来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。
设F1表示原变量的第一个线性组合所形成的主成分指标,即,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不相关的X1,X2,…,XP的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2、……、Fm为原变量指标X1、X2……XP第一、第二、……、第m个主成分。
根据以上分析得知:
(1)Fi与Fj互不相关,即Cov(Fi,Fj) = 0,并有Var(Fi)=ai’Σai,其中Σ为X的协方差阵。
(2)F1是X1,X2,…,Xp的一切线性组合(系数满足上述要求)中方差最大的,……,即Fm是与F1,F2,……,Fm-1都不相关的X1,X2,…,XP的所有线性组合中方差最大者。
F1,F2,…,Fm(m≤p)为构造的新变量指标,即原变量指标的第一、第二、……、第m个主成分。
由以上分析可见,主成分分析法的主要任务有两点:
(1)确定各主成分Fi(i=1,2,…,m)关于原变量Xj(j=1,2 ,…, p)的表达式,即系数( i=1,2,…,m; j=1,2 ,…,p)。