维度
对于数组来说维度就是括号的数量 或者 .shape后含有数字的个数
对于图像来说 维度就是图像中特征向量的数量
特征向量可以理解成坐标轴
降维算法
sklearn中的降维算法
一个特征的方差越大,表示所涵盖的信息越多
Var = 1(n-1)∑(xi-xhat)^2
n-1是无偏估计
PCA
重要参数
n_components
降维后需要保留的特征数量 特征百分比
范围在 [0,min(X.shape)]
属性
.explained_variance_
查看降维后每个新特征特征向量上所带的信息大小(可解释方差的大小)
.explained_variance_ration_
查看每个新特征向量所占信息量展原数据信息量的占比
累计可解释方差贡献率曲线
当不填写任何值时,默认返回min(X.shape)个特征,一般来说,这样填写不会有任何作用,但可以用这种方式画出累计可解释方差贡献率曲线 选择最好的n_components
累积可解释方差贡献率曲线是一条以降维后保留的特征个数为横坐标,降维后新特征矩阵捕捉到的可解释方差贡献率为纵坐标的曲线,能够帮助我们决定n_components最好的取值。
具体操作
plt.plot([维度个数],np.cumsum(pca_line.explained_variance_ratio_))