主成分分析(principal component analysis,PCA ) 是一种的常见的无监督学习方法,这一方法利用正交变换把由线性相关变量表示的观测数据转换为少数几个有线性无关变量表示的数据。
这些线性无关的变量被称为主成分,主成分的个数通常小于原始变量。
所以主成分是观测数据(样本)的,不同的观测数据(样本)的主成分是不一样的。
可以理解成观测数据的另外一个维度。
1. PCA的定义(主要介绍样本主成分)
考虑由m维随机变量
x
=
[
x
1
x
2
⋯
x
m
]
⊤
x=\left[\begin{array}{llll}x_{1} & x_{2} & \cdots & x_{m}\end{array}\right]^{\top}
x=[x1x2⋯xm]⊤到m维随机变量
y
=
[
y
1
y
2
⋯
y
m
]
⊤
y=\left[\begin{array}{llll}y_{1} & y_{2} & \cdots & y_{m}\end{array}\right]^{\top}
y=[y1y2⋯ym]⊤的线性变换:
y
=
A
T
x
\boldsymbol{y}=A^{\mathrm{T}} \boldsymbol{x}
y=ATx
即:
[
y
1
y
2
⋮
y
m
]
=
[
a
11
a
21
⋯
a
m
1
a
12
a
22
⋯
a
m
2
⋮
⋮
⋮
a
1
m
a
2
m
⋯
a
m
m
]
[
x
1
x
2
⋮
x
m
]
\left[\begin{array}{c} y_{1} \\ y_{2} \\ \vdots \\ y_{m} \end{array}\right]=\left[\begin{array}{cccc} a_{11} & a_{21} & \cdots & a_{m 1} \\ a_{12} & a_{22} & \cdots & a_{m 2} \\ \vdots & \vdots & & \vdots \\ a_{1 m} & a_{2 m} & \cdots & a_{m m} \end{array}\right]\left[\begin{array}{c} x_{1} \\ x_{2} \\ \vdots \\ x_{m} \end{array}\right]
⎣⎢⎢⎢⎡y1y2⋮ym⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡a11a12⋮a1ma21a22⋮a2m⋯⋯⋯am1am2⋮amm⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡x1x2⋮xm⎦⎥⎥⎥⎤
y
i
=
α
i
T
x
=
∑
k
=
1
m
α
k
i
x
k
,
i
=
1
,
2
,
⋯
,
m
y_{i}=\alpha_{i}^{\mathrm{T}} \boldsymbol{x}=\sum_{k=1}^{m} \alpha_{k i} x_{k}, \quad i=1,2, \cdots, m
yi=αiTx=k=1∑mαkixk,i=1,2,⋯,m
其中
α
i
T
=
(
α
1
i
,
α
2
i
,
⋯
,
α
m
i
)
\alpha_{i}^{\mathrm{T}}=\left(\alpha_{1 i}, \alpha_{2 i}, \cdots, \alpha_{m i}\right)
αiT=(α1i,α2i,⋯,αmi)。
如果该线性变换满足一下条件,则称
y
i
y_{i}
yi为主成分:
(1)
α
i
T
α
i
=
1
,
i
=
1
,
2
,
⋯
,
m
\alpha_{i}^{\mathrm{T}} \alpha_{i}=1, i=1,2, \cdots, m
αiTαi=1,i=1,2,⋯,m 。
α
i
\alpha_i
αi是一个长度为1的向量。
(2) cov ( y i , y j ) = 0 ( i ≠ j ) \operatorname{cov}\left(y_{i}, y_{j}\right)=0(i \neq j) cov(yi,yj)=0(i=j),主成分都是线性无关的。
(3) x x x经过不同的 α i \alpha_i αi线性变换会得到不同的结果 y i y_i yi,在所有线性变换中存在一个线性变换使得变量 y i y_i yi方差是最大的;
y 2 y_{2} y2是与 y 1 y_{1} y1不相关的 x x x的所有线性变换中方差最大的;
一般地, y i y_{i} yi是与 y 1 , y 2 , ⋯ , y i − 1 , ( i = 1 , 2 , ⋯ , m ) y_{1}, y_{2}, \cdots, y_{i-1},(i=1,2, \cdots, m) y1,y2,⋯,yi−1,(i=1,2,⋯,m)都不相关的 x x x的所有线性变换中方差最大的;这时分别称 y 1 , y 2 , ⋯ , y m y_{1}, y_{2}, \cdots, y_{m} y1,y2,⋯,ym为 x x x的第一主成分,第二主成分,… 第m住成分。
参考资料
《统计学习方法》,李航