pca降维的基本思想_降维:PCA(主成成分分析)

PCA(主成分分析)是一种常用的降维方法,旨在解决维度灾难问题。其核心思想包括样本空间的重构和最大投影方差,通过SVD或协方差矩阵分解实现。PCA与PCoA的主要区别在于数据规模,而p-PCA则从概率角度解释PCA。降维在解决过拟合和数据筛选中扮演关键角色。
摘要由CSDN通过智能技术生成

降维,顾名思义,就是降低样本的特征维度,这是因为“维度灾难”的问题,具体看连接:维度灾难

1,

定义样本空间:

d81c765289977e77bb203fcb355099d9.png

则样本均值:8cc33e16b254c0a57ca08b2cb2788316.png, 为1*p为的矩阵。

样本方差方差:

f0c1b1ce18a3d6779cfc685c83a0d596.png

S为p*p维的矩阵,对角线的数值是对应维度的方差

其中,d4df49041a481c4a206fec1496c5ffbb.pngde8adee77e3c26dc3f76ba79914d9881.png,d8141f5faaf9a3cda7fc47aedfd1c938.png是N*N的单位矩阵。而H是中心矩阵,H的n次幂等于它本身

2,PCA的核心思想可以概括为两句:一个中心,两个基本点。

一个中心:对原始特征空间的重构。(相关->无关)

两个基本点:最大投影方差,最小重构距离。(这两个条件结果相同)

a,对特征空间重构的意思是让原来的p个特征转换成新的p个无关的特征。

8b7d54dfa0a8c17a9f20d0f09c280d9e.png

如上图,就是把特征x1,x2转换成无关的u1,u2。

b,最大投影方差就是让样本在新的特征上的投影的坐标的方差最大,如上图就是让4个样本在u1、u2的方差最大,如若u2的方差很小则可以舍去这个维度。

以u1为例,令新的特征u1为单位向量,则u1的模长为1,即d6e8d21a6e90ea42a27ab5d1c40579d6.png.

样本846d295d093062545f036cef3846d6fb.png在u1上的投影为e6737951f9d96b599e76b86efcddc51c.png,那么对应的向量形式为:

32ba59a852304124275ee2aee6860874.png

74e124e83af0e46b375754455d1740e4.png

c,最小重构代价,选取p个维度中的q个维度,计算两者的代价,然后最小化。

24b831f4faa8a7ee26b865a478de33ab.png


3.从SVD的角度看PCA

c64ea3996be53e94c89a1ef5b4ca7ee3.png


4. PCoA(主坐标分析:principal co-ordinates analysis)

a8d994060023ae7b1ae1c9988c701d52.png

如若想降维,可以对HX做SVD,也可以对S或者T做特征分解。

PCA与PCoA的不同是,S是p*p维的,T是N*N维的,如若p>>N时,使用PCoA,反之使用PCA。


5. P-PCA

下面从概率的角度对 PCA 进行分析,概率方法也叫 p-PCA。我们使用线性模型,类似之前 LDA,我们选定一个方向,对原数据77b965fa6a436b1648ec4818dbff8567.png,降维后的数据为bd1f3cef1bed2326ec06f41b45ced5b4.png。降维通过一个矩阵变换(投影)进行:

73e6333acc7c376ddf40927f5644e17f.png

6956836ea4144df4bd9068d22d6bd8c8.png

        对于这个模型,我么可以使用期望-最大(EM)的算法学习参数W、338da989e2ed37203a578f14d74d35a7.png3efa01b24ffd2917f00a7ac8e7195a81.png,在进行推断的时候需要求得p(z|x),推断的求解过程和线性高斯模型类似。

1cece119cc320710280f304d5af8e61e.png

总结:

降维是解决维度灾难和过拟合的重要方法,除了直接的特征选择外,我们还可以采用算法的途径对特征进行筛选,线性的降维方法以 PCA 为代表,在 PCA 中,我们只要直接对数据矩阵进行中心化然后求奇异值分解或者对数据的协方差矩阵进行分解就可以得到其主要维度。非线性学习的方法如流形学习将投影面从平面改为超曲面。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值