本文主要介绍总体及样本的主成分的概念,如何可视化,以及一些最基本的性质。
1 总体的主成分
考虑 x ∼ ( μ , Σ ) x\sim (\mu,\Sigma) x∼(μ,Σ),其中 Σ \Sigma Σ可分解为 Σ = Γ Λ Γ ′ \Sigma=\Gamma\Lambda\Gamma' Σ=ΓΛΓ′, Γ = ( η 1 , … , η d ) \Gamma=(\eta_1,\ldots,\eta_d) Γ=(η1,…,ηd),各列为单位特征向量, Λ \Lambda Λ为特征值降序排列的对角矩阵,协方差矩阵的秩 rank ( Σ ) = r \text{rank}(\Sigma)=r rank(Σ)=r,对于 k = 1 , … , r k=1,\ldots,r k=1,…,r,定义如下概念:
- 第 k k k个principal component score(主成分得分)为 w k = η k ′ ( x − μ ) w_k=\eta_k' (x-\mu) wk=ηk′(x−μ);
- 第 k k k个principal component vector(主成分向量)为 w ( k ) = ( w 1 , … , w k ) ′ = Γ k ′ ( x − μ ) w^{(k)}=(w_1,\ldots,w_k)'=\Gamma_k' (x-\mu) w(k)=(w1,…,wk)′=Γk′(x−μ);
- 第 k k k个principal component projection (vector)(主成分映射(向量))为 p k = η k η k ′ ( x − μ ) = w k η k p_k=\eta_k\eta_k'(x-\mu)=w_k\eta_k pk=ηkηk′(x−μ)=wkηk。
我们来仔细看以上几个概念。 η k \eta_k ηk也叫载荷(loading),score x k x_k xk其实就是 x x x在方向 η k \eta_k ηk上的贡献,也就是将 x x x投影到 η k \eta_k ηk,而将前 k k k个score放到一起,就组成了 x ( k ) x^{(k)} x(k)。 p k p_k pk是一个 d d d维向量,它的方向就是 η k \eta_k ηk的方向,长度/欧式范数为 ∣ x k ∣ \vert x_k\vert ∣xk∣。
2 样本的主成分
假设我们有 n n n个样本,将它们排成 d × n d\times n d×n的矩阵 X = ( x 1 , … , x n ) X=(x_1,\ldots,x_n) X=(x1,…,xn),记样本均值 x ˉ = 1 n X ℓ n \bar x=\dfrac{1}{n}X\ell_n xˉ=n1Xℓn,样本协方差矩阵 S = 1 n − 1 ( X − x ˉ ℓ n ′ ) ( X − x ˉ ℓ n ′ ) ′ S=\dfrac{1}{n-1}(X-\bar x \ell_n')(X-\bar x \ell_n')' S=n−11(X−xˉℓn′)(X−xˉℓn′