实验八——PCA算法

最新推荐文章于 2024-10-05 19:23:25 发布

诶滴仔

最新推荐文章于 2024-10-05 19:23:25 发布

阅读量195

点赞数 1

文章标签：算法 python 数据分析

本文链接：https://blog.csdn.net/2201_76121495/article/details/139608135

版权

PCA（Principal Component Analysis，主成分分析）是一种常用的数据分析方法，在数据降维、去噪、特征提取、数据可视化等方面有广泛的应用。PCA算法的主要思想是将n维特征映射到k维上（k<n），这k维是全新的正交特征，也称为主成分。

PCA算法的基本步骤：

数据预处理：对数据进行中心化处理，即使数据的均值为0。这是为了消除量纲和数量级的影响，使得不同特征的权重相同。
计算协方差矩阵：协方差矩阵能反映不同变量之间的相关性。PCA的目标就是找到一组新的变量（主成分），这组变量是原始变量的线性组合，而且新变量之间互不相关（即协方差为0）。
计算协方差矩阵的特征值和特征向量：通过求解协方差矩阵的特征值和特征向量，可以找到数据的主要变化方向。特征值越大，表示对应的特征向量方向上数据的变化越大，也就是说这个方向上的信息量越多。
选择主成分：将特征值从大到小排序，选择前k个最大的特征值对应的特征向量，这些特征向量就是我们要找的主成分。这些主成分可以最大程度地保留原始数据的信息。
数据转换：将原始数据投影到选定的主成分上，得到新的数据表示。这个过程就是降维，将原始的高维数据转换为低维数据。

PCA算法的优点：

降低数据维度：通过PCA可以降低数据的维度，简化模型，同时保留数据中的主要信息。
去噪：PCA可以去除数据中的噪声和冗余信息，提高数据的质量。
加速计算：降低维度后的数据可以减少计算量，提高计算效率。
可视化：对于高维数据，我们可以将其降维到2维或3维，然后进行可视化展示。

python
	from sklearn.decomposition import PCA  

	from sklearn.datasets import load_iris  

	import matplotlib.pyplot as plt  

	  

	# 加载iris数据集  

	iris = load_iris()  

	X = iris.data  

	y = iris.target  

	  

	# 实例化PCA对象，设置要降到的维度数n_components=2  

	pca = PCA(n_components=2)  

	  

	# 对数据进行PCA降维  

	X_pca = pca.fit_transform(X)  

	  

	# 绘制降维后的数据  

	plt.figure(figsize=(8, 6))  

	plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, edgecolor='k', alpha=0.7)  

	plt.xlabel('PCA 1')  

	plt.ylabel('PCA 2')  

	plt.title('PCA降维后的Iris数据集')  

	plt.colorbar()  

	plt.show()

实验小结：

通过实验，我们成功地使用PCA算法将Iris数据集从四维降到了二维，并通过可视化清晰地展示了各类别之间的分布关系。手动实现的PCA过程也进一步加深了我们对算法原理的理解。

在实验过程中，我们发现PCA算法能够有效地提取数据中的主要特征，去除冗余信息，从而实现数据的降维。这不仅简化了数据模型，还有助于提高后续机器学习任务的效率和准确性。