机器学习之特征工程{数据降微}

在数据预处理之后进行

这里的维度指的是特征值的数量,与pandas的维度不同。

方式有两种:特征选择   主成分分析

特征选择

原因:

1.冗余:部分特征的相关度高,容易消耗计算机性能

2.噪声:部分特征对预测结果有负面影响

概念:

        特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值,也可以不改变值。但是选择后的维度一定比选择前小,毕竟我们只选择了其中的一部分特征。

主要有三种方式:Filter(过滤式):VarianceThreshold    【Variance方差】

                             Embedded(嵌入式):正则化,决策树

                             Wrapper(包裹式)

过滤式只通过每个特征的方差大小考虑

API: sklearn.feature_selection.VarianceThreshold

主成分分析(PCA)

比如:如何最好的对一个立体的物体二维表示

本质:PCA是一种分析,简化数据集的技术

目的:是多维数压缩,尽可能降低原数据的维度(复杂度),损失少量信息。

作用:可以削减回归分析或者聚类分析中特征的数量

n_components 可以是小数或是整数,小数常用百分数来表示(0-1)  90%~95% ;   整数表示信息量降到多少,一般使用小数

补充一个pandas的知识:交叉表

pd.crosstab(行标签,列标签)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值