pearson特征选择matlab,使用sklearn做特征选择

本文介绍了特征选择的重要性,并详细阐述了几种特征选择方法,包括方差判别、皮尔逊相关系数、卡方检验、互信息法以及包装消除特征的递归特征消除法和集成法,如L1惩罚和GDBT。这些方法旨在确定哪些特征对目标变量有显著影响,从而提高模型性能。
摘要由CSDN通过智能技术生成

上一篇有说到特征工程的一些工具使用,但是我们要知道,并不是我们处理完全部我们能够想到的特征后,扔进model就可以了,因为我们并不知道所得到的这些新特征是否有用,换句话说,这些特征的重要性到底有多大?甚至很多时候,一些特征对我们的target并没有很好的反映或是产生负影响。此时我们需要进行一项必要的工作:特征选择

1 特征选择

我们主要关心以下几个问题:

1、特征差异性。也就是一列特征值若几乎没有什么变化,那么这个特征对模型并没有什么作用。

2、相关性大小。也就是该维特征与target的相互作用有多大。

2 过滤法

1、方差判别

给定阈值,排除那些方差低于阈值的特征。

from sklearn.feature_selection import VarianceThreshold

#方差选择法,返回值为特征选择后的数据

#参数threshold为方差的阈值

VarianceThreshold(threshold=3).fit_transform(data.data)

2、相关性系数选择

计算各个特征对target的相关系数,常用的就是皮尔逊相关系数P来做衡量,给定我们想筛选出来的特征个数即可。

from sklearn.feature_selection import SelectKBest

from scipy.stats import pearsonr

#选择K个最好的特征,返回选择特征后的数据

#第一个参数为计算评估特征是否好的函数,该函数输入特征矩阵和目标向量,输出二元组(评分,P值)的数组,数组第i项为第i

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值