决策树分类小结

lixia0417mul2

已于 2022-03-08 21:42:24 修改

阅读量543

点赞数

分类专栏： python机器学习文章标签：决策树分类算法

于 2022-03-08 21:38:21 首次发布

本文链接：https://blog.csdn.net/lixia0417mul2/article/details/123363987

版权

python机器学习专栏收录该内容

21 篇文章 0 订阅

订阅专栏

本文探讨了构建决策树时如何选择根节点和确定最佳分裂阈值。首先，通过比较不同特征分类错误率，发现职业比年龄更适合作为根节点。其次，通过调整年龄阈值，发现在30岁处分割可以减少误分类。熵作为衡量信息混乱程度的指标，被用来评估特征和阈值的选择，目标是使熵减，从而提高分类效果。

摘要由CSDN通过智能技术生成

我认为建立决策树最主要要解决以下两个问题：
1.树根怎么选，一般来说约上层的节点重要性越高
2.节点按什么阈值分裂效果最好
简单用一个例子来举例：
年龄职业是否购买mac
25 程序员是
50 程序员是
10 学生否
20 学生是
25 学生否
30 程序员是
25 程序员否

回答第一点问题：
谁是更适合的根节点，那么假设我们按照年龄是否大于等于25来分类，那么分错的个数是3个，
按照职业是否是程序员来分类，那么分错的个数是2个，这表明按照职业来进行分类更适合作为根节点
回答第二个问题：
按照年龄是否大于等于25来分类，那么分错的个数是3个，如果我们按照年龄大于等于30来分类，那么分错的个数是2个，
这表明按照大于等于30来分类更合适

数学上的一些概念：
熵：熵越大，越混乱，熵越小，混乱越小
–注意这里和稳定的区别(他们传闻说是越稳定，越混乱，越不稳定，混乱越小)，还是不理会这个概念了
熵 = -sum(P * logP), 当A和B平均分类时熵最大： -(0.5 * log0.5 + 0.5 * log0.5) =1
当全部分类为A或者B时，熵最小： -(1 * log1 + 0) = 0
前面的选择根节点或者分裂节点的目的都是为了熵减的目的
也就是比如label的熵为0.6，那么哪个特征的熵和0.6越接近越适合作为根节点，
对于节点分裂的阈值也是同理，哪个阈值导致的熵和0.6越接近，就用哪个作为分裂阈值

参考文章:https://zhuanlan.zhihu.com/p/30059442

lixia0417mul2

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
决策树分类小结

我认为最主要建立决策树最主要要解决以下两个问题：1.树根怎么选，一般来说约上层的节点重要性越高2.节点按什么阈值分裂效果最好简单用一个例子来举例：年龄职业是否购买mac25 程序员是50 程序员是10 学生否20 学生是25 学生否30 程序员是25 程序员否回答第一点问题：谁是更适合的根节点，那么假设我们按照年龄是否大于等于25来分类，那
复制链接

扫一扫

专栏目录