06机器学习——特征工程数据的降维

最新推荐文章于 2020-11-25 17:00:37 发布

Amelia0312

最新推荐文章于 2020-11-25 17:00:37 发布

阅读量159

点赞数

分类专栏：机器学习文章标签： python 机器学习大数据

本文链接：https://blog.csdn.net/qq_43541420/article/details/108265088

版权

机器学习专栏收录该内容

15 篇文章 2 订阅

订阅专栏

06机器学习——特征工程数据的降维

这里的维度是指特征的数量
如：三维的降为二维的
在这里插入图片描述
比如有四个特征，但是并不是全部需要，就把不需要的特征删除掉

删除掉后特征的数量就变少了，所以统称为降维

数据降维
1.特征选择
2.主成分分析

（1）数据的降维之特征选择
在这里插入图片描述
比如我们要对鸟进行分类

·特征选择是什么
在这里插入图片描述
Variance（方差），过滤式就是对方差进行过滤
方差为0时，说明这一列特征值都一样，一样的话就不需要拿去分析了
指定方差，将无用的、冗余的特征都给删除
方差大小：考虑所有样本这个特征的数据情况
在这里插入图片描述

from sklearn.feature_selection import VarianceThreshold
def var():
    """
    特征选择-删除低方差的特征
    :return:None
    """
    var=VarianceThreshold()
    data=var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]])
    print(data)
    return None

if __name__=="__main__":
    var()

结果：
在这里插入图片描述
可以指定删除的方差：

from sklearn.feature_selection import VarianceThreshold
def var():
    """
    特征选择-删除低方差的特征
    :return:None
    """
    var=VarianceThreshold(threshold=1.0)
    data=var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]])
    print(data)
    return None

if __name__=="__main__":
    var()

结果：
在这里插入图片描述

这个方差的大小也不是想取多少就取多少，一般是根据实际情况来取
（嵌入式之后再说）

·其他特征选择方法
神经网络（后面具体介绍）

（2）数据的降维之主成分分析
在这里插入图片描述

特征数量达到上百的时候，考虑数据的简化
数据也会改变，特征数量也会减少

在这里插入图片描述

n_components:
·小数：百分比的形式，0-1，动态的指定保留多少信息，保留90%-95%最好
·整数：指定的是，减少到的特征数量
在这里插入图片描述

from sklearn.decomposition import PCA
def pca():
    """
    主成分分析进行特征降维
    :return:None
    """
    pca=PCA(n_components=0.9)
    data=pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])
    print(data)
    return None

if __name__=="__main__":
    pca()

结果：
在这里插入图片描述

降维案例1
在这里插入图片描述

每个人买了什么物品，用户进行分类就可以有针对性的投广告

降维到27

其他降维方法
在这里插入图片描述
特征选择与主成分分析的比较
当维度过百时就使用主成分分析

Amelia0312

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
06机器学习——特征工程数据的降维

06机器学习——特征工程数据的降维这里的维度是指特征的数量如：三维的降为二维的比如有四个特征，但是并不是全部需要，就把不需要的特征删除掉删除掉后特征的数量就变少了，所以统称为降维数据降维1.特征选择2.主成分分析（1）数据的降维之特征选择比如我们要对鸟进行分类·特征选择是什么Variance（方差），过滤式就是对方差进行过滤方差为0时，说明这一列特征值都一样，一样的话就不需要拿去分析了指定方差，将无用的、冗余的特征都给删除方差大小：考虑所有样本这个特征的数据情况
复制链接

扫一扫

专栏目录