机器学习中的算法-降维算法

最新推荐文章于 2023-11-10 17:02:33 发布

Something Just Like

最新推荐文章于 2023-11-10 17:02:33 发布

阅读量1k

点赞数

分类专栏： PCA 文章标签：降维算法 PCA

本文链接：https://blog.csdn.net/qq_14815661/article/details/97241622

版权

本文介绍了数据降维的概念及其优势，包括减少计算开销、去除噪声和简化结果理解。主成分分析（PCA）是最常用的降维算法之一，通过找到最大化方差的方向来提取最有价值的信息。PCA的优化目标是选择一组单位正交基，使得原始数据在新基上的协方差为0且方差最大化。文章还讨论了协方差矩阵在选择降维方向中的作用，以及如何通过特征值和特征向量实现数据的对角化降维。

摘要由CSDN通过智能技术生成

原创文章,如需转载请保留出处
本博客为唐宇迪老师python数据分析与机器学习实战课程学习笔记

一.数据降维
降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。在实际的生产和应用中，降维在一定的信息损失范围内，可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。
降维具有如下一些优点：
1) 使得数据集更易使用。
2) 降低算法的计算开销。
3) 去除噪声。
4) 使得结果容易理解。
降维的算法有很多，比如奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)。

二. PCA主成分分析（Principal Component Analysis）
PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。 PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推，可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，实现对数据特征的降维处理。