【机器学习】sklearn数据预处理（降维）

最新推荐文章于 2022-08-25 18:23:27 发布

颜良文良

最新推荐文章于 2022-08-25 18:23:27 发布

阅读量2k

点赞数

分类专栏：机器学习文章标签： sklearn 数据降维

本文链接：https://blog.csdn.net/bigFatCat_Tom/article/details/93298409

版权

机器学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

在机器学习的特征预处理过程中，由于存在一些冗余的特征，我们需要对特征进行降维处理以简化机器学习的难度，常用的数据降维的方式有：Filter（过滤式）：Variance Threshold、Embedded（嵌入式）：正则化，决策树（后续在讲解常用的机器学习算法具体讲解）、PCA主成分分析。

1.Variance Threshold

如下图，主要是针对特征相同或者该列方差相近时，将该列特征删除（由于这些特征相近不能很好的区分样本的差异性）。

具体的代码如下：

from sklearn.feature_selection import VarianceThreshold

def var():
    '''
    特征选择：删除低方差的特征
    :return:
    '''
    var = VarianceThreshold(threshold=0.0)
    data = var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]])
    print(data)
    return None

if __name__=='__main__':
    var()

输出结果如下：

[[2 0]
 [1 4]
 [1 1]]

2.PCA主成分分析

PCA算法的具体作用是在不改变样本个数的情况下降低数据的维度，一般在特征维度较大的情况下考虑使用主成分分析法来降低数据的维度（比如分析一个图像数据），我们可以从下图来进行理解：

可以看到，在二维的数据中，我们找了一条直线，是的原始数据映射到这条直线上，这样数据的总个数不变，还是五个，但是数据的维度降低了。这就是PCA的核心之处，在降低维度的同时不改变样本量。据图的代码如下：

from sklearn.decomposition import PCA

def pca():
    '''
    主成分分析进行数据降维
    :return:
    '''
    pca = PCA(n_components=0.9)
    data = pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]]) #数据的个数不变
    print(data)
    return None

if __name__ == '__main__':
    pca()

n_components=0.9-0.95之间即保留大概90%-95%的特征，计算结果如下：

[[ 1.28620952e-15  3.82970843e+00]
 [ 5.74456265e+00 -1.91485422e+00]
 [-5.74456265e+00 -1.91485422e+00]]

颜良文良

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录