模型原型
class sklearn.decomposition.PCA(n_components=None,copy=True,
whiten=False)
参数
- n_components:降维后的维数
- None:min(n_samples,n_features)
- ‘mle’:使用Minka’s MLE算法来猜测降维后的维数
- 大于0、小于1的浮点数:降维后的维数占原始维数的百分比
- copy:如果为False,则直接使用原始数据来训练,结果会覆盖原始数据所在的数组
- whiten:如果为True,则会将特征向量除以n_samples倍的特征值,从而非相关输出的方差为1
属性
- components_:主成分数组
- explained_varianceradio:一个数组,元素是每个主成分的explained variance的比例
- mean_:一个数组,元素是每个特征的统计平均值
- ncomponents:指示主成分有多少个元素
方法
- fit(X[,y])
- transform(X):执行降维
- fit_transform(X,[,y]):训练模型并降维
- inverse_transform(X):执行升维(逆向操作)
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets,decomposition,manifold
加载数据
def load_data():
iris=datasets.load_iris()
return iris.data,iris.target
使用PCA
def test_PCA(*data):
X,y=data
pca=decomposition.PCA(n_components=None)
pca.fit(X)
print('explained variance radio:%s'%str(pca.explained_variance_ratio_))
X,y=load_data()
test_PCA(X,y)
降维后的样本分布图
def plot_PCA(*data):
X,y=data
pca=decomposition.PCA(n_components=2)
pca.fit(X)
X_r=pca.transform(X)
#绘图
fig=plt.figure()
ax=fig.add_subplot(1,1,1)
colors=((1,0,0),(0,1,0),(0,0,1),(0.5,0.5,0),(0,0.5,0.5),(0.5,0,0.5),
(0.4,0.6,0),(0.6,0.4,0),(0,0.6,0.4),(0.5,0.3,0.2),)
for label,color in zip(np.unique(y),colors):
position=y==label
ax.scatter(X_r[position,0],X_r[position,1],label='target=%d'%label,color=color)
ax.set_xlabel('X[0]')
ax.set_ylabel('Y[0]')
ax.legend(loc='best')
ax.set_title("PCA")
plt.show()
plot_PCA(X,y)