(六)特征分解的运用

1、PCA的本质

协方差矩阵的对角化,KL变换,将特征值较大的保存下来。

给定一个矩阵 XRm×n X ∈ R m × n ,例如

X=[a1b1a2b2anbn](1) X = [ a 1 a 2 ⋯ a n b 1 b 2 ⋯ b n ] ( 1 )

PCA的本质就是选择 k<m k < m 个正交基进行降维的同时又尽量保存原始的信息。即,使得 A A 变换到这组基后,使得行向量之间的协方差为0,而每个行向量的方差尽可能大。(这里一行代表一个数据,即使将多行的数据压缩成更少的行数,但是尽量保留了原始的信息,非对角元上的2个协方差1ni=1naibi代表行与行之间的相关性,所以相关性越小越好;对角元上的方差 1nni=1a2i 1 n ∑ i = 1 n a i 2 1nni=1b2i 1 n ∑ i = 1 n b i 2 越大越好)

2、协方差矩阵(对称半正定)

CX=1nXXT=[1nni=1a2i1nni=1aibi1nni=1aibi1nni=1b2i](2) C X = 1 n X X T = [ 1 n ∑ i = 1 n a i 2 1 n ∑ i = 1 n a i b i 1 n ∑ i = 1 n a i b i 1 n ∑ i = 1 n b i 2 ] ( 2 )

注意:这里的n是列数

3、PCA问题实例

假设 Y=QX Y = Q X ( Q Q 是方阵),则对角化Y,令

CY=1nYYT=QCXQT C Y = 1 n Y Y T = Q C X Q T


CX=UΛUTΛ=UTCXU C X = U Λ U T ⇒ Λ = U T C X U

其中 U=[u1,...,un] U = [ u 1 , . . . , u n ] 是特征向量矩阵

所以,令 Q=UT Q = U T 实现对 CY C Y 的对角化。
(1)

X=[1210002101] X = [ − 1 − 1 0 2 0 − 2 0 0 1 1 ]

CX=[65454565] C X = [ 6 5 4 5 4 5 6 5 ]

其中, X X 是原始数据,CX根据公式 (2) ( 2 ) 计算得出。
(2)根据 CXx=λx C X x = λ x 得出 CX C X 的特征值: λ1=2,λ2=2/5 λ 1 = 2 , λ 2 = 2 / 5 ,所以特征向量为
u1=1212 u 1 = [ 1 2 1 2 ]

u2=1212 u 2 = [ − 1 2 1 2 ]

因此,
U=[u1u2]=12121212 U = [ u 1 u 2 ] = [ 1 2 − 1 2 1 2 1 2 ]

UT=12121212 U T = [ 1 2 1 2 − 1 2 1 2 ]

所以,
Q=UT=12121212 Q = U T = [ 1 2 1 2 − 1 2 1 2 ]

此时,对角化了 CY C Y ,未降维。
(3)降维(2行数据降到1行数据,按照 λ λ 从大到小取)
这里取 Q Q 的第一行,即对应U的第一列数据 u1 u 1 ,即对应着最大的 λ1=2 λ 1 = 2
[1212]X=[321203212] [ 1 2 1 2 ] X = [ − 3 2 − 1 2 0 3 2 − 1 2 ]

总结:对数据 X X 的协方差矩阵CX进行变换(左边 Q Q ,右边QT以维持等式不变),变换过程得到 CY C Y 对角矩阵。即原始的数据 X X 经过变换过程Q也可以得到对角矩阵,此时的结果使得行与行之间相关性变小,对角元数据方差尽可能大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值