PCA(Principal Component Analysis)主成分分析法是机器学习中非常重要的方法,主要作用有降维和可视化。PCA的过程除了背后深刻的数学意义外,也有深刻的思路和方法。
1. 准备数据集
本文利用sklearn中的datasets的Iris数据做示范,说明sklearn中的PCA方法。导入数据并对数据做一个概览:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
digits = datasets.load_digits()
X = digits.data
y = digits.target
X.shape,y.shape
((1797, 64), (1797,))
将数据做一个分离,分离成训练数据集和测试数据集:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,random_state = 666)
X_train.shape,X_test.shape
((1347, 64), (450, 64))