PCA原理详解

声明:

  1. 参考:PCA数学原理维基百科

PCA——主成分分析

简介

PCA全称Principal Component Analysis,即主成分分析,是一种常用的数据降维方法。它可以通过线性变换将原始数据变换为一组各维度线性无关的表示,以此来提取数据的主要线性分量
z = w T x z = w T x z = w T x z=wTxz = w^Txz=wTx z=wTxz=wTxz=wTx
  其中,z为低维矩阵,x为高维矩阵,w为两者之间的映射关系。假如我们有二维数据(原始数据有两个特征轴——特征1和特征2)如下图所示,样本点分布为斜45°的蓝色椭圆区域。PCA算法认为斜45°为主要线性分量,与之正交的虚线是次要线性分量(应当舍去以达到降维的目的)。
二维数据的PCA降维
划重点:

  1. 线性变换=>新特征轴可由原始特征轴线性变换表征
  2. 线性无关=>构建的特征轴是正交的
  3. 主要线性分量(或者说是主成分)=>方差加大的方向
  4. PCA算法的求解就是找到主要线性分量及其表征方式的过程

相应的,PCA解释方差并对离群点很敏感:少量原远离中心的点对方差有很大的影响,从而也对特征向量有很大的影响。

线性变换

一个矩阵与一个列向量A相乘,等到一个新的列向量B,则称该矩阵为列向量A到列向量B的线性变换。

我们希望投影后投影值尽可能分散,而这种分散程度,可以用数学上的方差来表述。 V a r ( a ) = 1 m ∑ i = 1 m ( a i − μ ) 2 V a r ( a ) = 1 m ∑ i = 1 m ( a i − μ ) 2 V a r ( a ) = m 1 ​ i = 1 ∑ m ​ ( a i ​ − μ ) 2 Var(a)=1m∑i=1m(ai−μ)2Var(a) = \frac 1m \sum_{i=1}^m(a_i - \mu)^2Var(a)=m1​i=1∑m​(ai​−μ)2 Var(a)=1mi=1m(aiμ)2Var(a)=m1i=1m(aiμ)2Var(a)=m1i=1m(aiμ)2即寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大。

解释:方差越大,说明数据越分散。通常认为,数据的某个特征维度上数据越分散,该特征越重要。

对于更高维度,还有一个问题需要解决,考虑三维降到二维问题。与之前相同,首先我们希望找到一个方向使得投影后方差最大,这样就完成了第一个方向的选择,继而我们选择第二个投影方向。如果我们还是单纯只选择方差最大的方向,很明显,这个方向与第一个方向应该是“几乎重合在一起”,显然这样的维度是没有用的,因此,应该有其他约束条件——就是正交

解释:从直观上说,让两个字段尽可能表示更多的原始信息,我们是不希望它们之间存在(线性)相关性的,因为相关性意味着两个字段不是完全独立,必然存在重复表示的信息。
字段在本文中指,降维后的样本的特征轴

数学上可以用两个字段的协方差表示其相关性: C o v ( a , b ) = 1 m ∑ i = 1 m ( a i − μ a ) ( b i − μ b ) C o v ( a , b ) = 1 m ∑ i = 1 m ( a i − μ a ) ( b i − μ b ) C o v ( a , b ) = m 1 ​ i = 1 ∑ m ​ ( a i ​ − μ a ​ ) ( b i ​ − μ b ​ ) Cov(a,b)=1m∑i=1m(ai−μa)(bi−μb)Cov(a, b) = \frac 1m \sum_{i=1}^m (a_i - \mu_a)(b_i - \mu_b)Cov(a,b)=m1​i=1∑m​(ai​−μa​)(bi​−μb​) Cov(a,b)=1mi=1m(aiμa)(biμb)Cov(a,b)=m1i=1m(aiμa)(biμb)Cov(a,b)=m1i=1m(aiμa)(biμb)当协方差为0时,表示两个字段线性不相关。

总结一下,PCA的优化目标是:
将一组N维向量降为K维(K大于0,小于N),其目标是选择K个单位正交基,使得原始数据变换到这组基上后,各字段两两间协方差为0,而字段的方差则尽可能大。


所以现在的重点是方差和协方差

协方差

在统计学上,协方差用来刻画两个随机变量之间的相关性,反映的是变量之间的二阶统计特性。考虑两个随机变量 X i X i X i ​ XiX_iXi​ XiXiXi X j X j X j ​ XjX_jXj​ XjXjXj,它们的协方差定义为
c o v ( X i , X j ) = E [ ( X i − E ( X i ) ) ( X j − E ( X j ) ) ] c o v ( X i , X j ) = E [ ( X i − E ( X i ) ) ( X j − E ( X j ) ) ] c o v ( X i ​ , X j ​ ) = E [ ( X i ​ − E ( X i ​ ) ) ( X j ​ − E ( X j ​ ) ) ] cov(Xi,Xj)=E[(Xi−E(Xi))(Xj−E(Xj))]cov(X_i, X_j) = E[(X_i - E(X_i))(X_j - E(X_j))]cov(Xi​,Xj​)=E[(Xi​−E(Xi​))(Xj​−E(Xj​))] cov(Xi,Xj)=E[(XiE(Xi))(XjE(Xj))]cov(Xi,Xj)=E[(XiE(Xi))(XjE(Xj))]cov(Xi,Xj)=E[(XiE(Xi))(XjE(Xj))]

tips:独立,不相关与协方差为零三者的关系
只讨论离散型随机变量的情形。
独立:随机变量 ξ , η ξ , η ξ , η ξ,η\xi ,\etaξ,η ξ,ηξ,ηξ,η独立是指对于任意的常数a,b,都有 P ( ξ = a , η = b ) = P ( ξ = a ) ⋅ P ( η = b ) P ( ξ = a , η = b ) = P ( ξ = a ) ⋅ P ( η = b ) P ( ξ = a , η = b ) = P ( ξ = a ) ⋅ P ( η = b ) P(ξ=a,η=b)=P(ξ=a)⋅P(η=b)P(\xi = a, \eta = b) = P(\xi = a) \cdot P(\eta = b)P(ξ=a,η=b)=P(ξ=a)⋅P(η=b) P(ξ=a,η=b)=P(ξ=a)P(η=b)P(ξ=a,η=b)=P(ξ=a)P(η=b)P(ξ=a,η=b)=P(ξ=a)P(η=b).
相关性,相关系数 ρ ξ η = c o v ( ξ , η ) v a r ( ξ ) v a r ( η ) ρ ξ η = c o v ( ξ , η ) v a r ( ξ ) v a r ( η ) ρ ξ η ​ = v a r ( ξ ) ​ v a r ( η ) ​ c o v ( ξ , η ) ​ ρξη=cov(ξ,η)var(ξ)var(η)\rho _{\xi \eta } = \frac {cov(\xi, \eta)}{\sqrt{var(\xi)} \sqrt{var(\eta)}}ρξη​=var(ξ)​var(η)​cov(ξ,η)​ ρξη=cov(ξ,η)var(ξ)var(η)ρξη=var(ξ) var(η) cov(ξ,η)ρξη=var(ξ)var(η)cov(ξ,η)
相关系数其实是“线性相关系数”
相关系数和协方差在描述相关性方面是等价的,但独立与相关性的关系是:

**独立=>不相关**

协方差矩阵:
假设有m个变量,特征维度为2, a 1 a 1 a 1 ​ a1a_1a1​ a1a1a1表示变量1的a特征。那么构成的数据集矩阵为:
X = ( a 1 a 2... a m b 1 b 2... b m ) X = ( a 1 a m p ; a 2 a m p ; . . . a m p ; a m b 1 a m p ; b 2 a m p ; . . . a m p ; b m ) X = ( a 1 ​ b 1 ​ ​ a 2 ​ b 2 ​ ​ . . . . . . ​ a m ​ b m ​ ​ ) X=(a1a2...amb1b2...bm)X=\begin{pmatrix} a_1 & a_2 &...& a_m\\ b_1 & b_2 &...&b_m \end{pmatrix}X=(a1​b1​​a2​b2​​......​am​bm​​) X=(a1a2...amb1b2...bm)X=(a1b1amp;a2amp;b2amp;...amp;...amp;amamp;bm)X=(a1b1a2b2......ambm)

再假设它们的均值都是0,对于有两个均值为0的m维向量组成的向量组, 1 m X X T = ( 1 m ∑ i = 1 m a i 21 m ∑ i = 1 m a i b i 1 m ∑ i = 1 m a i b i 1 m ∑ i = 1 m b i 2 ) 1 m X X T = ( 1 m ∑ i = 1 m a i 2 a m p ; 1 m ∑ i = 1 m a i b i 1 m ∑ i = 1 m a i b i a m p ; 1 m ∑ i = 1 m b i 2 ) m 1 ​ X X T = ( m 1 ​ ∑ i = 1 m ​ a i 2 ​ m 1 ​ ∑ i = 1 m ​ a i ​ b i ​ ​ m 1 ​ ∑ i = 1 m ​ a i ​ b i ​ m 1 ​ ∑ i = 1 m ​ b i 2 ​ ​ ) 1mXXT=(1m∑i=1mai21m∑i=1maibi1m∑i=1maibi1m∑i=1mbi2)\frac 1mXX^T=\begin{pmatrix} \frac 1m \sum_{i=1}^m a_i^2 & \frac 1m \sum_{i=1}^m a_ib_i\\ \frac 1m \sum_{i=1}^m a_ib_i & \frac 1m \sum_{i=1}^m b_i^2 \end{pmatrix}m1​XXT=(m1​∑i=1m​ai2​m1​∑i=1m​ai​bi​​m1​∑i=1m​ai​bi​m1​∑i=1m​bi2​​) 1mXXT=(1mi=1mai21mi=1maibi1mi=1maibi1mi=1mbi2)m1XXT=(m1i=1mai2m1i=1maibiamp;m1i=1maibiamp;m1i=1mbi2)m1XXT=(m1i=1mai2m1i=1maibim1i=1maibim1i=1mbi2)

可以发现对角线上的元素是两个字段的方差,其他元素是两个字段的协方差,两者都被统一到了一个矩阵——协方差矩阵中。

回顾一下前面所说的PCA算法的目标:方差max,协方差min!!

要达到PCA降维目的,等价于将协方差矩阵对角化:即除对角线外的其他元素化为0,并且在对角线上将元素按大小从上到下排列,这样我们就达到了优化目的。

设原始数据矩阵X对应的协方差矩阵为C,而P是一组基按行组成的矩阵,设Y=PX,则Y为X对P做基变换后的数据。设Y的协方差矩阵为D,我们推导一下D与C的关系: D = 1 m Y Y T = 1 m ( P X ) ( P X ) T = 1 m P X X T P T = P ( 1 m X X T ) P T = P C P T D = 1 m Y Y T = 1 m ( P X ) ( P X ) T = 1 m P X X T P T = P ( 1 m X X T ) P T = P C P T D = m 1 ​ Y Y T = m 1 ​ ( P X ) ( P X ) T = m 1 ​ P X X T P T = P ( m 1 ​ X X T ) P T = P C P T D=1mYYT=1m(PX)(PX)T=1mPXXTPT=P(1mXXT)PT=PCPTD = \frac 1m YY^T = \frac 1m (PX)(PX)^T = \frac 1m PXX^TP^T = P(\frac 1m XX^T)P^T = PCP^TD=m1​YYT=m1​(PX)(PX)T=m1​PXXTPT=P(m1​XXT)PT=PCPT D=1mYYT=1m(PX)(PX)T=1mPXXTPT=P(1mXXT)PT=PCPTD=m1YYT=m1(PX)(PX)T=m1PXXTPT=P(m1XXT)PT=PCPTD=m1YYT=m1(PX)(PX)T=m1PXXTPT=P(m1XXT)PT=PCPT

解释:想让原始数据集X =>pca成数据集Y,使得Y的协方差矩阵是个对角矩阵。
有上述推导可得,若有矩阵P能使X的协方差矩阵对角化,则P就是我们要找的PCA变换。

优化目标变成了寻找一个矩阵 P P P PPP PPP,满足 P C P T P C P T P C P T PCPTPCP^TPCPT PCPTPCPTPCPT是一个对角矩阵,并且对角元素按从大到小依次排列,那么 P P P PPP PPP的前 K K K KKK KKK行就是要寻找的基,用 P P P PPP PPP的前 K K K KKK KKK行组成的矩阵乘以 X X X XXX XXX就使得 X X X XXX XXX N N N NNN NNN维降到了 K K K KKK KKK维并满足上述优化条件。

矩阵对角化

首先,原始数据矩阵X的协方差矩阵C是一个实对称矩阵,它有特殊的数学性质:

  1. 实对称矩阵不同特征值对应的特征向量必然正交。
  2. 设特征值 λ λ λ λ\lambdaλ λλλ重数为r,则必然存在r个线性无关的特征向量对应于 λ λ λ λ\lambdaλ λλλ,因此可以将这r个特征向量单位正交化。

一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量,设这n个特征向量为 e 1 , e 2 , . . . , e n e 1 , e 2 , . . . , e n e 1 ​ , e 2 ​ , . . . , e n ​ e1,e2,...,ene_1, e_2, ..., e_ne1​,e2​,...,en​ e1,e2,...,ene1,e2,...,ene1,e2,...,en,我们将其按列组成矩阵: E = ( e 1   e 2   . . .   e n ) E = ( e 1   e 2   . . .   e n ) E = ( e 1 ​   e 2 ​   . . .   e n ​ ) E=(e1 e2 ... en)E = (e_1 \ e_2 \ ... \ e_n)E=(e1​ e2​ ... en​) E=(e1 e2 ... en)E=(e1 e2 ... en)E=(e1 e2 ... en)
则对协方差矩阵C有如下结论:
E T C E = Λ = ( λ 1 λ 2... λ n ) E T C E = Λ = ( λ 1 a m p ; a m p ; a m p ; a m p ; λ 2 a m p ; a m p ; a m p ; a m p ; . . . a m p ; a m p ; a m p ; a m p ; λ n ) E T C E = Λ = ⎝ ⎜ ⎜ ⎛ ​ λ 1 ​ ​ λ 2 ​ ​ . . . ​ λ n ​ ​ ⎠ ⎟ ⎟ ⎞ ​ ETCE=Λ=(λ1λ2...λn)E^TCE = \Lambda = \begin{pmatrix} \lambda_1 & & & \\ &\lambda_2 & & \\ & &... & \\ & & &\lambda_n \end{pmatrix}ETCE=Λ=⎝⎜⎜⎛​λ1​​λ2​​...​λn​​⎠⎟⎟⎞​ ETCE=Λ=(λ1λ2...λn)ETCE=Λ=λ1amp;amp;λ2amp;amp;amp;amp;amp;...amp;amp;amp;amp;amp;λnETCE=Λ=λ1λ2...λn这里不懂的朋友可以查阅线性代数相关书籍。
P = E T P = E T P = E T P=ETP = E^TP=ET P=ETP=ETP=ET

P是协方差矩阵的特征向量单位化后按行排列出的矩阵,其中每一行都是C的一个特征向量。如果设P按照中特征值的从大到小,将特征向量从上到下排列,则用P的前K行组成的矩阵乘以原始数据矩阵X,就得到了我们需要的降维后的数据矩阵Y。

在解释一下,特征值 λ λ λ λ\lambdaλ λλλ为什么要从大到小排列,为什么要选较大的 λ λ λ λ\lambdaλ λλλ???
因为我们协方差矩阵的对角线元素是方差,我们想要找方差交大的特征维度,所以要选择较大的对角线元素。
而对角矩阵 Λ Λ Λ Λ\LambdaΛ ΛΛΛ虽然是C经过线性变化后的矩阵,但它在对角线上元素的大小关系没变,特征维度 i i i iii iii对应的特征值 λ i λ i λ i ​ λi\lambda_iλi​ λiλiλi越大,该维度上数据的方差越大。

另一种解释思路

该思路基于拉格朗日问题的求解方法。
回到一开始, z = w T x z = w T x z = w T x z=wTxz=w^Txz=wTx z=wTxz=wTxz=wTx。其中,最主要的成分是这样的 w 1 w 1 w 1 ​ w1w_1w1​ w1w1w1,样本投影到 w 1 w 1 w 1 ​ w1w_1w1​ w1w1w1上之后最分散,使得样本点之间的差别变得最明显。为了得到唯一解且是该方向成为最重要的因素,我们要求 ∣ ∣ w 1 ∣ ∣ = 1 ∣ ∣ w 1 ∣ ∣ = 1 ∣ ∣ w 1 ​ ∣ ∣ = 1 ∣∣w1∣∣=1||w_1|| = 1∣∣w1​∣∣=1 w1=1w1=1w1=1. 如果 z 1 = w 1 T x z 1 = w 1 T x z 1 ​ = w 1 ​ T x z1=w1Txz_1={w_1}^Txz1​=w1​Tx z1=w1Txz1=w1Txz1=w1TxKaTeX parse error: Undefined control sequence: \sumCov at position 16: Cov(x)=∑Cov(x)=\̲s̲u̲m̲C̲o̲v̲(x)=∑,则
V a r ( z 1 ) = E [ ( w T x − w T μ ) 2 ] = w 1 t ∑ w 1 V a r ( z 1 ) = E [ ( w T x − w T μ ) 2 ] = w 1 t ∑ w 1 V a r ( z 1 ​ ) = E [ ( w T x − w T μ ) 2 ] = w 1 ​ t ∑ w 1 ​ Var(z1)=E[(wTx−wTμ)2]=w1t∑w1Var(z_1) =E[(w^Tx - w^T\mu)^2] = {w_1}^t\sum w_1 Var(z1​)=E[(wTx−wTμ)2]=w1​t∑w1​ Var(z1)=E[(wTxwTμ)2]=w1tw1Var(z1)=E[(wTxwTμ)2]=w1tw1Var(z1)=E[(wTxwTμ)2]=w1tw1
寻找 w 1 w 1 w 1 ​ w1w_1w1​ w1w1w1,使得 w 1 w 1 w 1 ​ w1w_1w1​ w1w1w1在约束下最大化。将这写成拉格朗日问题,则有:
m a x ⁡ w 1 w 1 T ∑ w 1 − α ( w 1 T w 1 − 1 ) max ⁡ w 1 w 1 T ∑ w 1 − α ( w 1 T w 1 − 1 ) w 1 ​ m a x ​ w 1 ​ T ∑ w 1 ​ − α ( w 1 T ​ w 1 ​ − 1 ) max⁡w1w1T∑w1−α(w1Tw1−1)\max_{w_1}{w_1}^T\sum w_1 - \alpha(w_1^Tw_1 - 1)w1​max​w1​T∑w1​−α(w1T​w1​−1) maxw1w1Tw1α(w1Tw11)w1maxw1Tw1α(w1Tw11)w1maxw1Tw1α(w1Tw11)
关于 w 1 w 1 w 1 ​ w1w_1w1​ w1w1w1求导并让它等于0,有:
2 ∑ w 1 − 2 α w 1 = 02 ∑ w 1 − 2 α w 1 = 02 ∑ w 1 ​ − 2 α w 1 ​ = 0 2∑w1−2αw1=02\sum w_1 - 2\alpha w_1 = 02∑w1​−2αw1​=0 2w12αw1=02w12αw1=02w12αw1=0
因此, ∑ w 1 = α w 1 ∑ w 1 = α w 1 ∑ w 1 ​ = α w 1 ​ ∑w1=αw1\sum w_1 = \alpha w_1∑w1​=αw1​ w1=αw1w1=αw1w1=αw1
如果 w 1 w 1 w 1 ​ w1w_1w1​ w1w1w1是协方差矩阵 ∑ ∑ ∑ ∑\sum∑ 的特征向量,a是对应的特征值,则上式成立。因为我们想最大化
KaTeX parse error: Undefined control sequence: \alphaVar at position 70: …pha w_1^Tw_1 = \̲a̲l̲p̲h̲a̲V̲a̲r̲(z1​)=w1T​∑w1​=…
所以为了方差最大,我们选择具有最大特征值的特征向量。因此,主成分是输入样本的协方差矩阵的具有最大特征值 λ 1 = α λ 1 = α λ 1 ​ = α λ1=α\lambda_1 = \alphaλ1​=α λ1=αλ1=αλ1=α的特征向量。
第二个主成分 w 2 w 2 w 2 ​ w2w_2w2​ w2w2w2也应该是最大化方差,具有单位长度,并且与 w 1 w 1 w 1 ​ w1w_1w1​ w1w1w1正交。后一个要求是使得投影后 z 2 = w 2 T x z 2 = w 2 T x z 2 ​ = w 2 T ​ x z2=w2Txz_2=w_2^Txz2​=w2T​x z2=w2Txz2=w2Txz2=w2Tx z 1 z 1 z 1 ​ z1z_1z1​ z1z1z1不相关。对于第二个主成分,有
m a x ⁡ w 2 w 2 T ∑ w 2 − α ( w 2 T w 2 − 1 ) − β ( w 2 T w 1 − 0 ) max ⁡ w 2 w 2 T ∑ w 2 − α ( w 2 T w 2 − 1 ) − β ( w 2 T w 1 − 0 ) w 2 ​ m a x ​ w 2 T ​ ∑ w 2 ​ − α ( w 2 T ​ w 2 ​ − 1 ) − β ( w 2 T ​ w 1 ​ − 0 ) max⁡w2w2T∑w2−α(w2Tw2−1)−β(w2Tw1−0)\max_{w_2} w_2^T \sum w_2 - \alpha(w_2^Tw_2 - 1) - \beta(w_2^Tw_1 - 0)w2​max​w2T​∑w2​−α(w2T​w2​−1)−β(w2T​w1​−0) maxw2w2Tw2α(w2Tw21)β(w2Tw10)w2maxw2Tw2α(w2Tw21)β(w2Tw10)w2maxw2Tw2α(w2Tw21)β(w2Tw10)
最后,该式简化为 ∑ w 2 = α w 2 ∑ w 2 = α w 2 ∑ w 2 ​ = α w 2 ​ ∑w2=αw2\sum w_2 = \alpha w_2∑w2​=αw2​ w2=αw2w2=αw2w2=αw2,这表明 w 2 w 2 w 2 ​ w2w_2w2​ w2w2w2应该是 ∑ ∑ ∑ ∑\sum∑ 的具有第二大特征值 λ 2 = α λ 2 = α λ 2 ​ = α λ2=α\lambda_2=\alphaλ2​=α λ2=αλ2=αλ2=α的特征向量。类次的,我们可以证明其他维被具有递减特征值的特征向量给出。

算法及实例

PCA算法

总结一下PCA的算法步骤:
设有n条m维数据。

  1. 将原始数据按列组成m行n列矩阵X
  2. 将X的每一行(代表一个属性字段)进行零均值化
  3. 求出协方差矩阵 C = 1 m X X T C = 1 m X X T C = m 1 ​ X X T C=1mXXTC = \frac 1m XX^TC=m1​XXT C=1mXXTC=m1XXTC=m1XXT
  4. 求出协方差矩阵的特征值及对应的特征向量
  5. 将特征相浪按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
  6. Y = P X Y = P X Y = P X Y=PXY = PXY=PX Y=PXY=PXY=PX即为降维到k维后的数据

关于PCA的python实现代码可以参考这里,不过ipynb文件可能在github上刷不出来,建议下载下来用jupyter notebook打开。

实例

原始数据集矩阵X:
( 1124213344 ) ( 1 a m p ; 1 a m p ; 2 a m p ; 4 a m p ; 2 1 a m p ; 3 a m p ; 3 a m p ; 4 a m p ; 4 ) ( 11 ​ 13 ​ 23 ​ 44 ​ 24 ​ ) (1124213344)\begin{pmatrix} 1 & 1 & 2 & 4 & 2 \\ 1 & 3 & 3 & 4 & 4 \end{pmatrix}(11​13​23​44​24​) (1124213344)(11amp;1amp;3amp;2amp;3amp;4amp;4amp;2amp;4)(1113234424)

求均值后:
( − 1 − 1020 − 20011 ) ( − 1 a m p ; − 1 a m p ; 0 a m p ; 2 a m p ; 0 − 2 a m p ; 0 a m p ; 0 a m p ; 1 a m p ; 1 ) ( − 1 − 2 ​ − 10 ​ 00 ​ 21 ​ 01 ​ ) (−1−1020−20011)\begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix}(−1−2​−10​00​21​01​) (1102020011)(12amp;1amp;0amp;0amp;0amp;2amp;1amp;0amp;1)(1210002101)

再求协方差矩阵
C = 15 ( − 1 − 1020 − 20011 ) ⋅ ( − 1 − 2 − 10002101 ) = ( 65454565 ) C = 1 5 ( − 1 a m p ; − 1 a m p ; 0 a m p ; 2 a m p ; 0 − 2 a m p ; 0 a m p ; 0 a m p ; 1 a m p ; 1 ) ⋅ ( − 1 a m p ; − 2 − 1 a m p ; 0 0 a m p ; 0 2 a m p ; 1 0 a m p ; 1 ) = ( 6 5 a m p ; 4 5 4 5 a m p ; 6 5 ) C = 51 ​ ( − 1 − 2 ​ − 10 ​ 00 ​ 21 ​ 01 ​ ) ⋅ ⎝ ⎜ ⎜ ⎜ ⎜ ⎛ ​ − 1 − 1020 ​ − 20011 ​ ⎠ ⎟ ⎟ ⎟ ⎟ ⎞ ​ = ( 56 ​ 54 ​ ​ 54 ​ 56 ​ ​ ) C=15(−1−1020−20011)⋅(−1−2−10002101)=(65454565)C = \frac 15 \begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix} \cdot \begin{pmatrix} -1 &-2 \\ -1 &0 \\ 0 &0 \\ 2 &1 \\ 0 &1 \end{pmatrix} = \begin{pmatrix} \frac65 &\frac45 \\ \frac45 &\frac65 \end{pmatrix}C=51​(−1−2​−10​00​21​01​)⋅⎝⎜⎜⎜⎜⎛​−1−1020​−20011​⎠⎟⎟⎟⎟⎞​=(56​54​​54​56​​) C=15(1102020011)(1210002101)=(65454565)C=51(12amp;1amp;0amp;0amp;0amp;2amp;1amp;0amp;1)11020amp;2amp;0amp;0amp;1amp;1=(5654amp;54amp;56)C=51(1210002101)1102020011=(56545456)

特征值:
λ 1 = 2 , λ 2 = 25 λ 1 = 2 , λ 2 = 2 5 λ 1 ​ = 2 , λ 2 ​ = 52 ​ λ1=2,λ2=25\lambda_1 = 2, \lambda_2 = \frac 25λ1​=2,λ2​=52​ λ1=2,λ2=25λ1=2,λ2=52λ1=2,λ2=52

对应的特征向量:
c 1 ( 1212 ) , c 1 ( − 1212 ) c 1 ( 1 2 1 2 ) , c 1 ( − 1 2 1 2 ) c 1 ( 2 ​ 1 ​ 2 ​ 1 ​ ​ ) , c 1 ( − 2 ​ 1 ​ 2 ​ 1 ​ ​ ) c1(1212),c1(−1212)c1\begin{pmatrix} \frac 1{\sqrt 2}\\ \frac 1{\sqrt 2} \end{pmatrix}, c1\begin{pmatrix} -\frac 1{\sqrt 2}\\ \frac 1{\sqrt 2} \end{pmatrix}c1(2​1​2​1​​),c1(−2​1​2​1​​) c1(1212),c1(1212)c1(2 12 1),c1(2 12 1)c1(2121),c1(2121)

标准化(其实不标准化也一样,只是稍显不专业)
P = ( 1212 − 1212 ) P = ( 1 2 a m p ; 1 2 − 1 2 a m p ; 1 2 ) P = ( 2 ​ 1 ​ − 2 ​ 1 ​ ​ 2 ​ 1 ​ 2 ​ 1 ​ ​ ) P=(1212−1212)P = \begin{pmatrix} \frac 1{\sqrt 2} &\frac 1{\sqrt 2} \\ -\frac 1{\sqrt 2} &\frac 1{\sqrt 2} \end{pmatrix}P=(2​1​−2​1​​2​1​2​1​​) P=(12121212)P=(2 12 1amp;2 1amp;2 1)P=(21212121)

选择较大特征值对应的特征向量:
( 1212 ) ( 1 2 a m p ; 1 2 ) ( 2 ​ 1 ​ ​ 2 ​ 1 ​ ​ ) (1212)\begin{pmatrix} \frac 1{\sqrt 2} &\frac 1{\sqrt 2} \end{pmatrix}(2​1​​2​1​​) (1212)(2 1amp;2 1)(2121)

执行PCA变换:Y=PX,得到的Y就是PCA降维后的值数据集矩阵:
Y = ( 1212 ) ⋅ ( − 1 − 1020 − 20011 ) = ( − 32 − 1203212 ) Y = ( 1 2 a m p ; 1 2 ) ⋅ ( − 1 a m p ; − 1 a m p ; 0 a m p ; 2 a m p ; 0 − 2 a m p ; 0 a m p ; 0 a m p ; 1 a m p ; 1 ) = ( − 3 2 a m p ; − 1 2 a m p ; 0 a m p ; 3 2 a m p ; 1 2 ) Y = ( 2 ​ 1 ​ ​ 2 ​ 1 ​ ​ ) ⋅ ( − 1 − 2 ​ − 10 ​ 00 ​ 21 ​ 01 ​ ) = ( − 2 ​ 3 ​ ​ − 2 ​ 1 ​ ​ 0 ​ 2 ​ 3 ​ ​ 2 ​ 1 ​ ​ ) Y=(1212)⋅(−1−1020−20011)=(−32−1203212)Y = \begin{pmatrix} \frac 1{\sqrt 2} &\frac 1{\sqrt 2} \end{pmatrix} \cdot \begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix} = \begin{pmatrix} -\frac 3 {\sqrt 2} & -\frac 1 {\sqrt 2} & 0 & \frac 3 {\sqrt 2} & \frac 1 {\sqrt 2}\end{pmatrix}Y=(2​1​​2​1​​)⋅(−1−2​−10​00​21​01​)=(−2​3​​−2​1​​0​2​3​​2​1​​) Y=(1212)(1102020011)=(321203212)Y=(2 1amp;2 1)(12amp;1amp;0amp;0amp;0amp;2amp;1amp;0amp;1)=(2 3amp;2 1amp;0amp;2 3amp;2 1)Y=(2121)(1210002101)=(232102321)

降维过程的示意图

降维投影结果

进一步讨论

根据上面对PCA的数学原理的解释,我们可以了解到一些PCA的能力和限制。PCA本质上是将方差最大的方向作为主要特征,并且在各个正交方向上将数据“离相关”,也就是让它们在不同正交方向上没有相关性

因此,PCA也存在一些限制,例如它可以很好的解除线性相关,但是对于高阶相关性就没有办法了,对于存在高阶相关性的数据,可以考虑Kernel PCA,通过Kernel函数将非线性相关转为线性相关,关于这点就不展开讨论了。另外,PCA假设数据各主特征是分布在正交方向上,如果在非正交方向上存在几个方差较大的方向,PCA的效果就大打折扣了。

最后需要说明的是,PCA是一种无参数技术,也就是说面对同样的数据,如果不考虑清洗,谁来做结果都一样,没有主观参数的介入,所以PCA便于通用实现,但是本身无法个性化的优化。

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PCA是一种常用的数据降维方法,可以将高维数据转化为低维数据,并能够保留原始数据的主要特征信息。在MATLAB中,可以通过pca函数来实现PCA分析。 具体实现过程如下: 1.加载数据 首先,需要加载待处理的数据。在本例中,我们使用iris数据集作为示例。 load fisheriris; X = meas; 2.中心化数据 PCA算法要求数据的均值为0,因此需要对数据进行中心化处理。 X_centered = X - mean(X); 3.计算协方差矩阵 PCA算法的核心是计算数据的协方差矩阵。在MATLAB中,可以使用cov函数来计算协方差矩阵。 C = cov(X_centered); 4.计算特征值和特征向量 协方差矩阵的特征值和特征向量可以通过eig函数计算得到。 [V,D] = eig(C); 5.将特征向量按照特征值大小排序 由于特征向量的重要性与其对应的特征值大小相关,因此需要将特征向量按照特征值大小进行排序。 [~, idx] = sort(diag(D), 'descend'); V = V(:,idx); 6.选择主成分 根据主成分的数量,选择前k个特征向量作为主成分。 k = 2; V_reduce = V(:, 1:k); 7.将数据投影到主成分上 最后,将数据投影到主成分上,得到降维后的数据。 X_pca = X_centered * V_reduce; 完整代码如下: % 加载数据 load fisheriris; X = meas; % 中心化数据 X_centered = X - mean(X); % 计算协方差矩阵 C = cov(X_centered); % 计算特征值和特征向量 [V,D] = eig(C); % 将特征向量按照特征值大小排序 [~, idx] = sort(diag(D), 'descend'); V = V(:,idx); % 选择前k个特征向量作为主成分 k = 2; V_reduce = V(:, 1:k); % 将数据投影到主成分上 X_pca = X_centered * V_reduce; % 绘制散点图 gscatter(X_pca(:,1), X_pca(:,2), species); xlabel('PC1'); ylabel('PC2'); title('Iris Dataset - PCA');

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值