机器学习——主成分分析（PCA）

最新推荐文章于 2024-01-01 00:40:04 发布

皓皓家的

最新推荐文章于 2024-01-01 00:40:04 发布

阅读量512

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_37861936/article/details/103654984

版权

主成分分析（PCA）是一种常用的数据降维方法，旨在找到一个低维空间，尽可能保留原始数据集的信息。PCA通过对数据进行标准化、计算协方差矩阵、求解特征值与特征向量，确定主成分。其优点包括简化数据复杂性，但缺点是可能丢失部分信息，且主成分的解释性较弱。

摘要由CSDN通过智能技术生成

1、PCA的思想

主成分分析（Principal Component Analysis）是一种最常用的数据降维手段。将大量变量转化成一组很少的不相关变量，这些不关变量称为主成分，并且尽可能地保留原始数据集的信息。
假如我们的数据集 $D$ 是 $n$ 维的，共有 $m$ 个数据 $(x^{(1)},x^{(2)},\cdots,x^{(m)})$ ,我们希望将这 $m$ 个数据的维度从 $n$ 维降到 $n^{'}$ 维，希望这 $m$ 个 $n^{'}$ 维的数据集尽可能的代表原始数据集。我们知道数据从 $n$ 维降到 $n^{'}$ 维肯定会有损失，但是我们希望损失尽可能的小。那么如何让这 $n^{'}$ 维的数据尽可能表示原来的数据呢？
举一个最简单的例子：
当 $n = 2, n^{'} = 1$ 时，我们希望找到一个一维方向可以尽可能代表原始数据集，图中列了两个向量方向， $u_1$ 和 $u_2$ ，那么哪个向量可以更好的代表原始数据集呢？从直观上也可以看出， $u_1$ 比 $u_2$ 好。

为什么 $u_1$ 比 $u_2$ 好呢？可以有两种解释:
第一种解释是样本点到这个直线的距离足够近
第二种解释是样本点在这个直线上的投影能尽可能的分开

因此，我们希望降维的标准为：样本点到这个超平面的距离足够近,或者说样本点在这个超平面上的投影能尽可能的分开

2、PCA算法流程

（1）各变量数据标准化
目的：标准化输入数据集，使数据成比例缩小
PCA方法对于初始变量的方差非常敏感，如果初始变量方差的差异很大，这将导致主成分的偏差，因此第一步需要将各初始变量的数据标准化，标准化公式：
$x_{new}=\frac{x_i-\mu}{\sigma}$
$\mu$ ：代表特征 $x$ 的均值
$\sigma$ ：代表特征 $x$ 的标准差

（2）计算样本的协方差矩阵
协方差定义：
$Cov(x,y)=E((x-\mu_x)(y-\mu_y))$

最低0.47元/天解锁文章

皓皓家的

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习——主成分分析（PCA）

1、PCA的思想主成分分析（Principal Component Analysis）是一种最常用的数据降维手段。将大量变量转化成一组很少的不相关变量，这些不关变量称为主成分，并且尽可能地保留原始数据集的信息。假如我们的数据集是nnn维的，共有mmm个数据KaTeX parse error: Expected '}', got 'EOF' at end of input: …,\cdots,x...
复制链接

扫一扫

专栏目录