决策树(一)--特征值选择

最新推荐文章于 2024-07-26 19:37:26 发布

Phoenix_tgd

最新推荐文章于 2024-07-26 19:37:26 发布

阅读量5.6k

点赞数

分类专栏：数据挖掘文章标签：分类决策树特征值选择

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Phoenix_tgd/article/details/84281965

版权

本文介绍了决策树的学习过程，包括特征选择的重要性。详细阐述了信息增益、增益率和基尼指数这三种常用的特征选择度量标准，并通过示例解释了如何计算这些度量值，以确定最佳分裂属性。

摘要由CSDN通过智能技术生成

决策树是一种基本的分类和回归方法。用决策树分类，从根节点开始，对实例的某一特征进行测试，根据测试的结果，将实例分配到其子结点；这时，每一个子结点对应着该特征的一个取值，递归地对实例进行测试和分配，直至达到叶节点，最后将实例分到叶节点的类中。

决策树学习通常包括3个步骤：特征选择，决策树的生成和决策树的剪枝。

特征值选择

当训练元组纬度比较大时，我们在对其进行分类的时候，要考虑选择哪一个特征值进行分裂得到的分类结果才是最好的。

属性选择度量是一种选择分裂准则，把给定类标记的训练元组的数据区D“最好地”划分为单独类的启发方式。这里介绍三种常用的属性选择度量-信息增益，增益率，基尼指数

1：信息增益（ID3）

为了便于说明，先给出熵和条件熵的定义

在信息论与概率统计中，熵是表示随机变量不确定性的度量，X是一个取有限个值的离散随机变量，其概率分布为 $P(X=x_{i})=p_{i}$ ，则随机变量X的熵为 $H(X)=-\sum_{i=1}^{n}p_{i}log{p_{i}}$

由公式可以得知，熵只依赖于X的分布，而与X的取值无关，并且熵越大，随机变量的不确定性就越大！！！

假设有随机变量（X,Y），其联合概率分布为： $P(X=x_{i},Y=y_{i})=p_{ij}$ ，条件熵 H(Y|X) 表示在已知随机变量X的条件下，Y的不确定性。随机变量X给定条件下随机变量Y的条件熵定义为X给定条件下Y的条件概率分布的熵对X的数学期望

最低0.47元/天解锁文章

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。