pyspark实现iv特征筛选

本文介绍了在机器学习中如何使用pyspark进行特征筛选,特别是通过计算信息价值(iv值)来评估特征的重要性。内容包括iv值的概念、计算公式以及pyspark实现iv值计算的代码示例。
摘要由CSDN通过智能技术生成

特征筛选和iv值

特征筛选

在实际的工程建模中,有时会引入大量的特征,以便可以从更多角度来刻画特征。但是当特征太多时,难免会引入一些无效特征。无效特征不仅会给模型带来噪音,并且还会增加模型的训练难度。因此在建模之前常常有必要进行一个初步的特征筛选,以便过滤掉那些无用特征。

iv值

iv值全称是information value。通过计算不同特征的iv值,可以来判断不同特征的重要程度。通常而言,某个特征的iv值越大,则该特征越重要。由于特征主要分为连续型特征和离散型特征,在特征入模之前,我们常常对连续型的特征进行归一化,对离散型的特征进行哑变量化(onehot)。我们需要分别对这两种不同类型的特征来计算iv值。
(1)iv值计算公式
对某个特征计算其iv值时首先需要对该特征进行分桶,设某特征被分为n个桶,每个分桶都能计算出一个iv值。设第i个桶对应的iv值为:

ivi=(pyipni)ln(pyipni) i v i = ( p y i − p n i ) ∗ l n ( p y i p n i )

,其中 pyi p y i 是第i个桶中正样本个数在所有正样本中的比列, pni p n i 则是第i个桶中负样本个数在所有负样本中的比列。其表达式为:
pyi=yiyall,pni=ninall p y i = y i y a l l , p n i = n i n a l l

,其中 yi y i ni n i 分别是第i个桶中正负样本的个数, yall y a l l
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值