特征选取和特征选择的区别:特征选择:能够保持数据的原始特征;
特征抽取:将数据转换或者映射到新的特征空间;即在尽可能保持相关信息的前提下,对数据进行压缩;
减无监督数据降维技术:主成分分析法(PCA)PCA是基于特征之间的关系,识别数据内在的本质;
PCA是在高位数据中找到最大方差的方向,同时将数据映射到 维度更小(与原始数据相比)的新的子空间;
说明:转换到新空间后,第一主成分的方差应该是最大的;
各主成分之间是不相关的(正交),后续各主成分也具备较大方差;
主成分方向对数据值范围高度敏感,因此需要对特征进行标准化处理;
算法基本流程如下:对原始d微数据集做标准化处理;
构造样本的协方差矩阵;
计算协方差矩阵的特征值和相应的特征向量;
选择与前k个最大特征值相对于的特征向量,其中k为新特征空间维度;(k≤d)
通过前k个特征向量构建映射矩阵w;
通过映射矩阵w将d维数据集X转换到新的k为特征空间;
协方差矩阵:两个特征之间的协方差为正,说明二者会同时增减;为负,说明二者异向;
协方差矩阵的特征向量代表主成分(最大方差方向),其对应的特征值大小就表示特征向量的重要性;
利用np.con()计算协方差矩阵;利用np.linalg.eig()求特征向量和特征值;
特征值的方差贡献率(variance explained ra