在机器学习的特征预处理过程中,由于存在一些冗余的特征,我们需要对特征进行降维处理以简化机器学习的难度,常用的数据降维的方式有:Filter(过滤式):Variance Threshold、Embedded(嵌入式):正则化,决策树(后续在讲解常用的机器学习算法具体讲解)、PCA主成分分析。
1.Variance Threshold
如下图,主要是针对特征相同或者该列方差相近时,将该列特征删除(由于这些特征相近不能很好的区分样本的差异性)。
具体的代码如下:
from sklearn.feature_selection import VarianceThreshold
def var():
'''
特征选择:删除低方差的特征
:return:
'''
var = VarianceThreshold(threshold=0.0)
data = var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]])
print(data)
return None
if __name__=='__main__':
var()
输出结果如下:
[[2 0]
[1 4]
[1 1]]
2.PCA主成分分析
PCA算法的具体作用是在不改变样本个数的情况下降低数据的维度,一般在特征维度较大的情况下考虑使用主成分分析法来降低数据的维度(比如分析一个图像数据),我们可以从下图来进行理解:
可以看到,在二维的数据中,我们找了一条直线,是的原始数据映射到这条直线上,这样数据的总个数不变,还是五个,但是数据的维度降低了。这就是PCA的核心之处,在降低维度的同时不改变样本量。据图的代码如下:
from sklearn.decomposition import PCA
def pca():
'''
主成分分析进行数据降维
:return:
'''
pca = PCA(n_components=0.9)
data = pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]]) #数据的个数不变
print(data)
return None
if __name__ == '__main__':
pca()
n_components=0.9-0.95之间即保留大概90%-95%的特征,计算结果如下:
[[ 1.28620952e-15 3.82970843e+00]
[ 5.74456265e+00 -1.91485422e+00]
[-5.74456265e+00 -1.91485422e+00]]