PCA 理论

PCA(Principal Component Analysis)

A=\begin{pmatrix} x_{11} &x_{_{21}} &x_{_{31}} &... &x_{m1} \\ x_{12}&x_{22} &x_{32} & ... &x_{m2} \\ x_{13}& x_{23} &x_{33} &... &x_{m3} \\ ...& ... & ... & ... &... \\ x_{1n}&x_{2n} &x_{3n} &... &x_{mn} \end{pmatrix}_{N\times M}:该矩阵表示有M个样例,每个样例有N维,通过PCA将其转化为\widetilde{A}=\begin{pmatrix} x_{11} &x_{_{21}} &x_{_{31}} &... &x_{m1} \\ x_{12}&x_{22} &x_{32} & ... &x_{m2} \\ x_{13}& x_{23} &x_{33} &... &x_{m3} \\ ...& ... & ... & ... &... \\ x_{1\widetilde{n}}&x_{2\widetilde{n}} &x_{3\widetilde{n}} &... &x_{m\widetilde{n}} \end{pmatrix}_{\widetilde{N}\times M}:该矩阵表示有M个眼里,每个样例有\widetilde{N}维,其中\widetilde{N}<N,因此达到了降低维度的目的。

简单来说PCA是将原本单个样本从原先的N维空间映射到\widetilde{N}空间上去,现在就是要找到映射矩阵Q,然后将其作用在A上,即\widetilde{A}=QAQ行向量两两正交,并且单位化。

下面的公式用i表示维度,j表示样本序号

样本均值:

一维:\overline{x}=\frac{1}{M}\sum_{j=1}^{M}x_{j}

n维:\overline{\overrightarrow{x}}=\frac{1}{M}\sum_{j=1}^{M}\overrightarrow{x_{j}}

样本方差:

一维:s^{2}=\frac{1}{M-1}\sum_{j=1}^{M}(x_{j}-\overline{x})^{2}

n维:S^{2}=\frac{1}{M-1}\sum_{j=1}^{M}(\overrightarrow{x_{j}}-\overline{\overrightarrow{x}})^{2}

协方差:COV(X, Y)=E[(X-EX)(Y-EY)]

 

COV(x_{1},x_{2},...,x_{n})=\begin{pmatrix} cov(x_{1},x_{1}) & cov(x_{1},x_{2}) & ... &cov(x_{1},x_{n}) \\ cov(x_{2},x_{1})& cov(x_{2},x_{2}) & ... &cov(x_{2},x_{n}) \\ ...& ... & ... &... \\ cov(x_{n},x_{1})& cov(x_{n},x_{2}) &... &cov(x_{n},x_{n}) \end{pmatrix}

A的协方差矩阵可以由其离散度矩阵得来,离散度矩阵定义如下:

S =\sum_{j=1}^{M}(\overrightarrow{x_{j}}-mean)(\overrightarrow{x_{j}}-mean)^{T}那么离散度矩阵与协方差矩阵的关系是COV=\frac{1}{M-1}S

然后求出COV的所有特征值和其对应的特征向量(标准化),然后选取特征值的前k大的k个特征值并且取出其对应的特征向量(特征向量以行向量的形式排出),形成Q,k维空间的坐标轴,进而得出\widetilde{A}=QA。由此提取了样例的前k个主要特征。

 

 

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值