PCA

最新推荐文章于 2024-08-22 16:52:45 发布

jiruiYang

最新推荐文章于 2024-08-22 16:52:45 发布

阅读量1.4k

点赞数 1

分类专栏：机器学习文章标签：数据降维 PCA 机器学习样本数小于特征数

本文链接：https://blog.csdn.net/jiruiYang/article/details/53321482

版权

PCA（主成分分析）是一种用于高维数据降维的方法，旨在最大化保留数据的方差。通过找到样本方差最大的方向进行投影，以减少信息损失。当样本数小于特征数时，PCA计算应基于S=DT*D的特征向量，而不是协方差矩阵Σ，以降低算法复杂度。降维后的数据可以通过变换矩阵U进行还原。

摘要由CSDN通过智能技术生成

PCA

PCA主要用于降维，即将高维数据降成低维。
但是应当怎么降才能使得信息损失最少呢？一种理论是认为降维后的数据方差越大，则信息损失最少。其实这符合我们的认知，如图：
image_1b1eo5ipf3oc1v371q6igqgpq9.png-85kB
如果将空间中二维的点降成一维的点，那么将空间中散点投影到蓝色线信息损失肯定会比投影到红色线的信息损失小。为什么？因为投影到蓝色线之后，点与点之间更分散，原来空间的点的投影重叠得更少，而投影到红色线则相反。也就是说投影到蓝色线的点方差更大，投影到红色线更小。
image_1b1ep92qe65416bo3m5o6u17f19.png-314.5kB

那么接下来就是要寻找这条线？
怎么找呢，在此之前，我们先看一下投影是怎么回事。
image_1b1eptq5m1v62bfk1f321ilv1kij13.png-46.1kB
如图，将向量 $\mathbf{x}$ 投影到向量 $\mathbf{u}$ 上，则，线段 $ox_p$ 长度为 $|\mathbf{x}|cos\theta$ ,我们再观察一下向量内积<script id="MathJax-Element-169" type="math/tex"><\mathbf{u},\mathbf{x}>=|\mathbf{x}||\mathbf{u}|cos\theta</script>，如果 $|\mathbf{u}$ |=1，则 $ox_p$ 的长度则可以写成<script id="MathJax-Element-172" type="math/tex"><\mathbf{u},\mathbf{x}>=\mathbf{u}^T\mathbf{x}</script>。也就是说，点x在向量 $\mathbf{u}$ 上的投影坐标为 $\mathbf{u}^T\mathbf{x}$ （在 $\mathbf{u}^T\mathbf{u}=1$ 的前提下）.
那么好了，假设原来空间的所有样本点是0均值的（如果不是0均值，可以将其变成0均值，使 $\mathbf{x}=\mathbf{x}-\mu$ 即可， $\mu$ 为样本均值）
，所有样本点构成一个d*n的矩阵 $D$ ，d为样本 $\mathbf{x}$ 维数，n为样本个数。