特征选择的策略--数据相关性(皮尔逊系数)与gini或者信息熵的的结合

首先特征选择在实际的数据挖掘项目中非常重要,从海量维度的特征中选取出表征明显的特征显得非常的重要。特征选择主要可以从数据相关性角度和信息增益的角度来考虑。


数据相关性判断:皮尔逊系数


clip_image001


当相关系数为0时,X和Y两变量无关系。

       当X的值增大,Y也增大,正相关关系,相关系数在0.00与1.00之间

       当X的值减小,Y也减小,正相关关系,相关系数在0.00与1.00之间

       当X的值增大,Y减小,负相关关系,相关系数在-1.00与0.00之间

         当X的值减小,Y增大,负相关关系,相关系数在-1.00与0.00之间

相关系数的绝对值越大,相关性越强,相关系数越接近于1和-1,相关度越强,相关系数越接近于0,相关度越弱。

clip_image003


其他数据相关性的判断方法还有很多,比如卡方检验,R方检验,WOE,IV,不过正常情况下,皮尔逊系数是比较合适的选择。




信息增益


信息增益基于香浓的信息论,它找出的属性R具有这样的特点:以属性R分裂前后的信息增益比其他属性最大。这里信息的定义如下:

  其中的m表示数据集D中类别C的个数,Pi表示D中任意一个记录属于Ci的概率,计算时Pi=(D中属于Ci类的集合的记录个数/|D|)。Info(D)表示将数据集D不同的类分开需要的信息量。

  如果了解信息论,就会知道上面的信息Info实际上就是信息论中的熵Entropy,熵表示的是不确定度的度量,如果某个数据集的类别的不确定程度越高,则其熵就越大。比如我们将一个立方体A抛向空中,记落地时着地的面为f1,f1的取值为{1,2,3,4,5,6},f1的熵entropy(f1)=-(1/6*log(1/6)+…+1/6*log(1/6))=-1*log(1/6)=2.58;现在我们把立方体A换为正四面体B,记落地时着地的面为f2,f2的取值为{1,2,3,4},f2的熵entropy(1)=-(1/4*log(1/4)+1/4*log(1/4)+1/4*log(1/4)+1/4*log(1/4)) =-log(1/4)=2;如果我们再换成一个球C,记落地时着地的面为f3,显然不管怎么扔着地都是同一个面,即f3的取值为{1},故其熵entropy(f3)=-1*log(1)=0。可以看到面数越多,熵值也越大,而当只有一个面的球时,熵值为0,此时表示不确定程度为0,也就是着地时向下的面是确定的。

  有了上面关于熵的简单理解,我们接着讲信息增益。假设我们选择属性R作为分裂属性,数据集D中,R有k个不同的取值{V1,V2,…,Vk},于是可将D根据R的值分成k组{D1,D2,…,Dk},按R进行分裂后,将数据集D不同的类分开还需要的信息量为: 

  信息增益的定义为分裂前后,两个信息量只差:


以上不想看的话后者不好理解的话可以这样理解:信息熵表示分类的不确定性,Info(D)为分列前的不确定性,Info R(D)为分裂之后的不确定性,他们的差值就是特征R对于分类确定行的贡献,贡献越大,证明特征R对于分类越重要!!!



Gini指数:

基尼指数是另外一种数据的不纯度的度量方法,其定义如下:

  

其中的m仍然表示数据集D中类别C的个数,Pi表示D中任意一个记录属于Ci的概率,计算时Pi=(D中属于Ci类的集合的记录个数/|D|)。如果所有的记录都属于同一个类中,则P1=1,Gini(D)=0,此时不纯度最低。在CART(Classification and Regression Tree)算法中利用基尼指数构造二叉决策树,对每个属性都会枚举其属性的非空真子集,以属性R分裂后的基尼系数为:

 

  D1为D的一个非空真子集,D2为D1在D的补集,即D1+D2=D,对于属性R来说,有多个真子集,即GiniR(D)有多个值,但我们选取最小的那么值作为R的基尼指数。最后:

  我们把Gini(R)增量最大的属性作为最佳分裂属性。


信息增益理解之后,Gini指数就更好理解了!!!



这样,我们在特征选择的时候可以从两个维度进行,一个是相关系数的判断,另一个就是信息增益的角度。相关系数侧重的是相关性,而信息增益和基尼指数可以挖掘深度的相关性,比如某个特征在一定其他特征划分之后才起到比较好的划分作用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值