PCA

PCA(主成分分析)是一种用于高维数据降维的方法,旨在最大化保留数据的方差。通过找到样本方差最大的方向进行投影,以减少信息损失。当样本数小于特征数时,PCA计算应基于S=DT*D的特征向量,而不是协方差矩阵Σ,以降低算法复杂度。降维后的数据可以通过变换矩阵U进行还原。
摘要由CSDN通过智能技术生成

PCA


PCA主要用于降维,即将高维数据降成低维。
但是应当怎么降才能使得信息损失最少呢?一种理论是认为降维后的数据方差越大,则信息损失最少。其实这符合我们的认知,如图:
image_1b1eo5ipf3oc1v371q6igqgpq9.png-85kB
如果将空间中二维的点降成一维的点,那么将空间中散点投影到蓝色线信息损失肯定会比投影到红色线的信息损失小。为什么?因为投影到蓝色线之后,点与点之间更分散,原来空间的点的投影重叠得更少,而投影到红色线则相反。也就是说投影到蓝色线的点方差更大,投影到红色线更小。
image_1b1ep92qe65416bo3m5o6u17f19.png-314.5kB

那么接下来就是要寻找这条线?
怎么找呢,在此之前,我们先看一下投影是怎么回事。
image_1b1eptq5m1v62bfk1f321ilv1kij13.png-46.1kB
如图,将向量 x 投影到向量 u 上,则,线段 oxp 长度为 |x|cosθ ,我们再观察一下向量内积 <u,x>=|x||u|cosθ <script id="MathJax-Element-169" type="math/tex"><\mathbf{u},\mathbf{x}>=|\mathbf{x}||\mathbf{u}|cos\theta</script>,如果 |u |=1,则 oxp 的长度则可以写成 <u,x>=uTx <script id="MathJax-Element-172" type="math/tex"><\mathbf{u},\mathbf{x}>=\mathbf{u}^T\mathbf{x}</script>。也就是说,点x在向量 u 上的投影坐标为 uTx (在 uTu=1 的前提下).
那么好了,假设原来空间的所有样本点是0均值的(如果不是0均值,可以将其变成0均值,使 x=xμ 即可, μ 为样本均值)
,所有样本点构成一个d*n的矩阵 D ,d为样本 x 维数,n为样本个数。

D=(x1x2...xn)

那么所有样本都投影到向量 u 上时,可写成 uTD ,
那么投影后得到的点的方差为:
Var(uTD)=E(uTD
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值