python图像压缩主成分分析实例_python机器学习API介绍13: 数据降维及主成分分析...-CSDN博客

本文链接：https://blog.csdn.net/weixin_39891694/article/details/112525257

本文介绍了数据降维的重要性和主成分分析PCA在机器学习中的应用。PCA是一种常用的降维方法，通过scikit-learn库进行实现。文中展示了PCA的参数设置、模型属性和方法，并提供了鸢尾花数据集的降维实例，通过可视化展示降维效果，揭示了PCA如何帮助区分数据类别。

摘要由CSDN通过智能技术生成

数据降维概述：数据降维是机器学习领域中重要的内容，所谓的降维就是采用某种映射方法，将高维空间中的数据点映射到低维的空间中。其本质是学习一个映射函数f: x->y。其中x是原始数据点的表述，目前多使用向量表达式；y是数据点映射后的低维向量表达；通常y的维度小于x的维度。映射函数可能是显示的或者是隐式的，可能是线性的也可能是非线性的。

目前大部分降维算法是处理向量表达的数据，也有一些降维算法处理高阶张量表达式数据，之所以使用降维后的数据表示是因为在原始的高维空间中，包含冗余信息以及噪声信息，这些信息会对数据的预测产生误差，降低了准确率；通过降维，我们可以减少噪声或冗余数据带来的误差，提高预测精度，同时还可以通过该方法来寻找数据内部的本质结构。在很多算法中，降维算法成为了数据预处理的一部分，比如PCA算法(主成分分析)。

对于降维效果的评估，如果降维后性能有所提高，则说明降维起到了效果，如果将数据降维到二维或者三维，则可以通过可视化技术来直观地判断降维的效果。

主成分分析(PCA)：主成分分析是一种常用的降维方法，其模型的原型为：

class sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False)

参数说明：

n_components：一个整数，指定降维后的维度(如果为None，则选择它的值为min(n_samples, n_features)。如果为字符串‘mle’，则使用Minka's MLE算法来猜测降维后的维度。如果为大于0小于1的浮点数，则指定的是降维后的维数占原始维数的百分比)。

copy：一个布尔值，如果为False,则直接使用原始数据来训练，结果会覆盖原始数据所在的数组；如果为True，那么使用的是拷贝的数据来训练，结果不会覆盖原始数据所在的数组。

whiten：一个布尔值，如果为True，则会将特征向量除以n_samples倍的特征值，从而保证非相关输出的方差为1(该白化操作可能会丢失部分信息，但是有时候在接下来的机器学习阶段能够活的更好的性能)。

属性说明：

components_：主成分的数值

explained_variance_ratio_：一个数组，元素是每个主成分的explained variance的比例

mean_：一个数组，元素是每个特征的统计平均值

n_components_：一个整数，指示主成分有多少个元素