决策树划分属性依据

最新推荐文章于 2024-07-14 16:00:44 发布

513k

最新推荐文章于 2024-07-14 16:00:44 发布

阅读量554

点赞数 5

分类专栏：机器学习文章标签：决策树算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51599283/article/details/140062993

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

划分依据

最近在学习项目的时候经常用到随机森林，所以对决策树进行探索学习。

基尼系数

基尼系数用来判断不确定性或不纯度，数值范围在0~0.5之间，数值越低，数据集越纯。
基尼系数的计算：
假设数据集有K个类别，类别K在数据集中出现的概率为Pk，则基尼系数为：
在这里插入图片描述
上式是用来求某个节点的基尼系数，要求某个属性的基尼系数用下面的公式：

最后选择基尼系数最小的属性进行划分即可。

基尼系数的应用

在决策树中，假如某个节点的基尼系数就是0，此时被分类到这个节点的数据集是纯的，意思就是按照此叶节点的父节点的分类方法来说，此叶节点都是同一个类别的，不需要再次分裂决策。

信息熵

信息熵和基尼系数作用相同，都是用来度量样本集合纯度的指标。
计算方法：
在这里插入图片描述
Pk是当前样本集合中第k类样本所占比例，Ent(D)(信息熵)越小，集合D的纯度越高。

这里约定当Pk为0时Ent(D)=0；

信息增益

计算公式：在这里插入图片描述
假设现在对集合D使用属性a来进行划分，属性a有v个取值，也就是有v个节点，上式中Dv是第v个节点就是取值为v的样本个数。

信息增益的使用

信息增益越大，说明使用属性a来划分所获得的纯度提升越大，决策树越好。

信息增益准则的局限性

从上面的公式可以看出，信息增益偏好可取值数目较多的属性，假如某个属性可取值达到了n，也就是每个样本都不一样，比如“编号”属性，那可以计算出这个属性的信息增益接近1，选择这样的属性来划分很可能不具有泛化能力。
改进：
使用增益率在这里插入图片描述
对于这个公式，当属性a的可取值越多时，则IV(a)会越大，增益率变小，进行了平衡。同样的，增益率准则也有局限，它对可取值较少的属性又有所偏好。

最终：先找出信息增益高于平均水平的属性，再从中选择增益率最高的即可。

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
决策树划分属性依据

在决策树中，假如某个节点的基尼系数就是0，此时被分类到这个节点的数据集是纯的，意思就是按照此叶节点的父节点的分类方法来说，此叶节点都是同一个类别的，不需要再次分裂决策。，假如某个属性可取值达到了n，也就是每个样本都不一样，比如“编号”属性，那可以计算出这个属性的信息增益接近1，选择这样的属性来划分很可能不具有泛化能力。假设现在对集合D使用属性a来进行划分，属性a有v个取值，也就是有v个节点，上式中Dv是第v个节点就是取值为v的样本个数。信息增益越大，说明使用属性a来划分所获得的纯度提升越大，决策树越好。
复制链接

扫一扫

专栏目录

513k CSDN认证博客专家 CSDN认证企业博客

码龄4年

65: 原创

25万+: 周排名

3万+: 总排名

7万+: 访问

: 等级

962: 积分

106: 粉丝

175: 获赞

25: 评论

220: 收藏

私信

关注

热门文章

分类专栏

最新评论

利用Anaconda+Pycharm配置PyTorch完整过程
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
LeetCode.82 删除排序链表中的重复元素二
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
games101作业1框架及解题办法详解
cq200314: std::array<Vector4f, 3> Triangle::toVector4() const { std::array<Vector4f, 3> res; std::transform(std::begin(v), std::end(v), res.begin(), [](auto& vec) { return Vector4f(vec.x(), vec.y(), vec.z(), 1.f); }); return res; } 为什么我的这段代码总是报错啊
关于C++/C语言最大递归次数的探索
jyb666888: 我又试了下，发现每次递归所用的空间远大于4B大小，大致算了下发现每次递归占用250B，所以int改成long long递归次数才变化的不明显。我试着改了下栈的大小，发现确实栈大了递归次数变多了，果然还是栈大小的影响啊
关于C++/C语言最大递归次数的探索
jyb666888: 我试了下分别输出int和long long，发现递归次数有差别但是差别不大，感觉更像是递归次数的差距，如果是堆栈大小引起的话，二者递归次数差距应该不小才对。我用的是VS2019 c语言可能和这些有关？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。