【机器学习】sklearn数据预处理(降维)

在机器学习的特征预处理过程中,由于存在一些冗余的特征,我们需要对特征进行降维处理以简化机器学习的难度,常用的数据降维的方式有:Filter(过滤式):Variance Threshold、Embedded(嵌入式):正则化,决策树(后续在讲解常用的机器学习算法具体讲解)、PCA主成分分析。

1.Variance Threshold

如下图,主要是针对特征相同或者该列方差相近时,将该列特征删除(由于这些特征相近不能很好的区分样本的差异性)。

                                                       

具体的代码如下:
 

from sklearn.feature_selection import VarianceThreshold

def var():
    '''
    特征选择:删除低方差的特征
    :return:
    '''
    var = VarianceThreshold(threshold=0.0)
    data = var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]])
    print(data)
    return None

if __name__=='__main__':
    var()

输出结果如下:

[[2 0]
 [1 4]
 [1 1]]

2.PCA主成分分析

PCA算法的具体作用是在不改变样本个数的情况下降低数据的维度,一般在特征维度较大的情况下考虑使用主成分分析法来降低数据的维度(比如分析一个图像数据),我们可以从下图来进行理解:

                        

可以看到,在二维的数据中,我们找了一条直线,是的原始数据映射到这条直线上,这样数据的总个数不变,还是五个,但是数据的维度降低了。这就是PCA的核心之处,在降低维度的同时不改变样本量。据图的代码如下:

from sklearn.decomposition import PCA

def pca():
    '''
    主成分分析进行数据降维
    :return:
    '''
    pca = PCA(n_components=0.9)
    data = pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]]) #数据的个数不变
    print(data)
    return None

if __name__ == '__main__':
    pca()

n_components=0.9-0.95之间即保留大概90%-95%的特征,计算结果如下:

[[ 1.28620952e-15  3.82970843e+00]
 [ 5.74456265e+00 -1.91485422e+00]
 [-5.74456265e+00 -1.91485422e+00]]

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值