PCA主成分分析
目标函数1:最小化重建误差
重建误差是指将低维表示重新转化为高维表示时与原来的高维表示的误差.
最小化重建误差可用最小化所有样本的平方重建误差之和来替代.
- 假定 ∣ ∣ w i ∣ ∣ = 1 , w i T w j = 0 ( i ≠ j ) ||w_i||=1,w_i^Tw_j = 0(i\neq j) ∣∣wi∣∣=1,wiTwj=0(i̸=j)为新坐标
- w w w用在两个函数上:
- 编码: z i = W T x i , z i j = w j T x i z_i = W^Tx_i,z_{ij} = w_j^Tx_i zi=WTxi,zij=wjTxi
- 解码: x ~ i = W z i = ∑ j = 1 d ′ z i j w j \tilde{x}_i = Wz_i = \sum_{j=1}^{d'}z_{ij}w_j x~i=Wzi=∑j=1d′zijwj
- 目标:最小平方重建误差和 m i n W ∈ R d × d ′ ∑ i = 1 m ∣ ∣ x i − W z i ∣ ∣ 2 min_{W\in R^{d\times d'}}\sum_{i=1}^m||x_i - Wz_i||^2 minW∈Rd×d′∑i=1m∣∣xi−Wzi∣∣2
重建误差: ∣ ∣ x − x ~ ∣ ∣ ||x-\tilde{x}|| ∣∣x−x~∣∣
当低维恰好是高维在低维向量 w i w_i wi上的投影时,重构误差最小.
推导:
∑ i = 1 m ∣ ∣ x i − W z i ∣ ∣ 2 = ∑ i = 1 m ∣ ∣ x i − ∑ j = 1 d ′ z i j w j ∣ ∣ 2 = ∑ i = 1 m z i T z i − 2 ∑ j = 1 m z i T W T x i + c o n s t ∝ − t r ( W T ( ∑ i = 1 m x i x i T ) W ) = − t r ( W T X X T W )