数据降维:
指的是降低特征的数量
数据降维的2种方式:
1.特征选择
2.主成分分析
1.特征选择
特征选择的原因:
冗余:部分特征相关度高,容易消耗计算性能。
噪声:部分特征对预测结果有影响
sklearnt二证选择API
特征选择主要方法(三大武器):
Filter(过滤式):varlanceThreshold # Varlance:方差
Embedded(嵌入式):正则化,决策树
Wrapper(包裹式)
Filter:
考虑所有样本这个特征的数据情况,过滤方差比较小的特征。他的意义其实就是特征选择。特征选择的API:sklearn.feature_selection.VarianceThreshold
sklearn的主成分分析:
PCA:分析简化数据集的技术
pca的目的:是数据位数压缩,尽可能降低原数据的维数,损失少量信息
pca的作用:可以削减回归分析或者据类分析的特征的数量
应用场景:当特征数量达到上百的时候。
API:sklearn.decomposition
n_components:小数形式,范围是0-1,置顶损失量保留多少保留百分之90和保留百分之50是不一样的,一般使用90%-95%。
整数:减少到的特征数量。一般不使用整数,因为我们也不知道减小到多少
#特征选择与主成分分析的比较:
当特征数上百&#x