离散特征之间的相关性

最新推荐文章于 2024-09-11 07:26:39 发布

sky88088

最新推荐文章于 2024-09-11 07:26:39 发布

阅读量3.4w

点赞数 10

文章标签：决策树特征相关数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sky88088/article/details/51737136

版权

本文探讨了在数据挖掘中如何计算离散特征之间的相关性，通过信息熵和信息增益的概念，提出了使用信息增益和信息增益比来衡量离散特征的相关性。这种方法在决策树算法中也有应用，可以反映特征间的分类相似度，同时解决了信息增益对分类数目较多的特征偏向的问题。

摘要由CSDN通过智能技术生成

在数据挖掘的时候，有时候我们会想计算不同特征之间的相关，比如在建模时用来减少冗余特征。连续特征之间的相关性很简单，用皮尔逊相关就可以了，是非常通用且有效的方法。但是在实践里面，大部分时候我们处理的是离散特征，所以这里想提出一个离散特征之间的相关计算办法。这是之前在看决策树C4.5的时候想到的一个思路，就是离散特征之间的相关，可以用决策树的经典算法中的信息增益和信息增益比来描述。

假定有一组数据集S，两个离散特征分别为A和B。Entropy(SA)表示使用特征A对数据集S进行分类后，所对应的信息熵（如果是在分类问题里，那么这个特征A就是希望学会的分类）。信息熵的形式为

这里写图片描述

p(i)是特征A中，样品属于第i类的概率。如果样品都属于一个类别，那么Entropy(SA)=0，相反，样品类别越多，分布越均匀，则信息熵越大，也可以说这组数据的不纯度越高。比如A代表是否会打篮球这个特征，如果样品都是会打的，那么纯度就很高。

决策树算法中的信息增益，被定义为

这里写图片描述

这个式子看起来有点复杂，其中Gain(SA_B)表示加入特征B分类之后的信息增益，i是根据特征B来分类的第i个类别，Bi是第i个类别的样品集合&#x

最低0.47元/天解锁文章

关注

10
点赞
踩
80

收藏

觉得还不错? 一键收藏
17
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 17

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。