特征选择主要包括什么?

特征选择对于模型效果至关重要。常用方法包括方差选择法、相关系数统计检验和互信息法。方差小的特征可能影响不大;相关系数用于连续变量,卡方检验用于离散变量;互信息则评估自变量对因变量的关联。通过这些方法,可以有效筛选出对模型预测最有价值的特征。
摘要由CSDN通过智能技术生成

特征选择是非常关键的步骤,选入大量的特征不仅会降低模型的效果,也会耗费大量的计算时间。而漏选的特征也会直接影响到最终的模型效果。

选择方法为:

1.方差选择法:假如某列特征数值变化一直平缓,说明这个特征对结果的影响很小,所以可以计算各个特征的方差,选择方差大于自设阈值的特征。

2.相关系数,统计检验:相关系数和统计检验都可以用来特征选择,常用的有person相关系数卡方检验,前者主要用于连续变量,后者用于离散变量。

3.互信息法:互信息法也经常被用于来评价自变量对因变量的相关性,互信息的计算公式为:

I(X;Y) = \sum_{x\epsilon X}\sum_{y\epsilon Y}p(x,y)\log \frac{p(x,y)}{p(x)p(y)}

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值