python卡方检验筛选特征原理_Python数据分析:特征选择(过滤法)

本文主要介绍特征工程中的过滤法,包括方差过滤、卡方检验、F检验和互信息法。详细解释了各类方法的原理、适用范围及在Python中的实现,例如使用sklearn库中的VarianceThreshold、chi2、f_classif和mutual_info_classif等函数进行特征选择。
摘要由CSDN通过智能技术生成

之前介绍了特征工程的第一部分数据预处理,详见:https://www.jianshu.com/p/e3e562242f61,本文介绍特征工程的第二部分:特征选择。特征选择有n多种方法,本文先介绍过滤法。

8cc95737df5e

image.png

一、先补充一下数据预处理环节没有提到的点“特征从哪里来?”

一般情况下,数据分析人员会根据业务流程搭建一套完整的指标体系,这些指标就是可能会用到的特征:

1)根据要解决的问题 从指标体系中 选择合适的指标作为特征。

2)从已有特征中去寻找高级数据特征(简单来说:基于现有的特征各种加减乘除等运算 得出来新特征)。

二、如何选择合适的特征?

1)最直接有效的方法:咨询最熟悉该业务的童鞋。

2)纯数据探索:利用特征选择的方法。

三、特征选择的方法之过滤法

1、方差过滤法

原理:方差越大说明该特征包含的信息越多,方差为0的特征要直接删除,即尝试其他过滤方法前先删掉方差为0的特征。

适用范围:离散型特征和连续型特征都可,和标签类型无关。

实现方式:sklearn中的VarianceThreshold类

-- Variance Threshold中重要参数 threshold(方差的阈值),表示删除所有方差小于threshold的特征,不填默认为0——删除所有记录相同的特征。

案例:

import pandas as

  • 3
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值