7-1 主成分分析（PCA）

最新推荐文章于 2022-09-04 15:50:33 发布

Bonjour_Yvonne

最新推荐文章于 2022-09-04 15:50:33 发布

阅读量566

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Bonjour_h/article/details/116862998

版权

机器学习专栏收录该内容

36 篇文章 1 订阅

订阅专栏

主成分分析（PCA）是一种有效的降维方法，它通过找到数据点投影后方差最大的方向来保留样本间的距离和可区分度。PCA首先将样本均值归零，然后寻求一个方向向量w，使得样本映射到w上的投影具有最大方差。这种方法能够更好地保持原始数据的结构，并提高点与点之间的区分度。PCA的目标是最大化投影后的方差，从而找到最佳的一维表示。

摘要由CSDN通过智能技术生成

主成分分析(Principal Component Analysis)
在这里插入图片描述
这是一个二维特征的样本，如果要降维的话可以降到一维。显而易见的降维方法是扔掉一个特征，那么所有的点就会映射到x轴或者y轴上，就会出现以下两种情况：
显然右边的方法是比较好的方法，因为右边情况下的点，点和点之间的距离相对来说是比较大的，更好的保持了原来的点和点之间的距离，点和点之间拥有更高的可区分度。
而左侧的降维方案点和点变得更加密集，和原来的点和点之间的分别相应而言差异更加的大。

但是右侧的方法并不是最好的方案

假设存在一根直线，将所有的点都映射在该条指直线上，这样的话点的整体分布和原来的点的分布就没有很大的差异（点和点的距离比映射到x轴或者映射到y轴都要大，区分度就更加明显），与此同时所有的点都在一个轴上（理解成一个维度），虽然这个轴是斜着的。用这种方式将二维降到了一维度在这里插入图片描述
那么如何找到这个让样本间距最大的轴？
如何定义样本间间距？使用方差(Variance)

方差越大代表样本之间越稀疏，方差越小代表样本之间越紧密

在这里插入图片描述
找到一个轴，使得样本空间的所有点映射到这个轴后，方差最大
第一步：将样例的均值归为0（demean）
移动坐标轴，使得样本在每一个维度均值都为0，即 $\bar{x}$ =0（所有的点已经映射在了新的轴上得到了新的样本的情况，两个维度分别为w1和w2），则有
在这里插入图片描述
第二步：我们想要一个轴的方向w=(w1,w2)，使得我们所有的样本映射到w以后，有

即：

因为进行了demean处理，那么 $\bar{X}_{project}$ 的值为0。最终得到

在这里插入图片描述
解析：将 $X^{(i)}$ 映射到w轴上，映射后对应的点就是 $X_{pr1}^{(i)},X_{pr2}^{(i)})$ 。而我们所求的 $\left \| X_{project}^{(i)} \right \|$ 的值即 $X^{(i)}$ 向量在w轴上投影的长度（图中蓝色箭头部分的长度）。
两个向量点乘的定义就是映射
w是一个方向，其为一个方向向量，模为1
$\theta$ 角为两个向量的夹角，化简以后得到的结果刚好是$X^{(i)}\cdot w=\left | X_{project}^{(i)} \right | $
此时，我们的目标转换为求
在这里插入图片描述
即：

Bonjour_Yvonne

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
7-1 主成分分析（PCA）

主成分分析(Principal Component Analysis)这是一个二维特征的样本，如果要降维的话可以降到一维。显而易见的降维方法是扔掉一个特征，那么所有的点就会映射到x轴或者y轴上，就会出现以下两种情况：显然右边的方法是比较好的方法，因为右边情况下的点，点和点之间的距离相对来说是比较大的，更好的保持了原来的点和点之间的距离，点和点之间拥有更高的可区分度。而左侧的降维方案点和点变得更加密集，和原来的点和点之间的分别相应而言差异更加的大。但是右侧的方法并不是最好的方案假设存在一根直线，将
复制链接

扫一扫

专栏目录