决策树分类小结

本文探讨了构建决策树时如何选择根节点和确定最佳分裂阈值。首先,通过比较不同特征分类错误率,发现职业比年龄更适合作为根节点。其次,通过调整年龄阈值,发现在30岁处分割可以减少误分类。熵作为衡量信息混乱程度的指标,被用来评估特征和阈值的选择,目标是使熵减,从而提高分类效果。
摘要由CSDN通过智能技术生成

我认为建立决策树最主要要解决以下两个问题:
1.树根怎么选,一般来说约上层的节点重要性越高
2.节点按什么阈值分裂效果最好
简单用一个例子来举例:
年龄 职业 是否购买mac
25 程序员 是
50 程序员 是
10 学生 否
20 学生 是
25 学生 否
30 程序员 是
25 程序员 否

回答第一点问题:
谁是更适合的根节点,那么假设我们按照年龄是否大于等于25来分类,那么分错的个数是3个,
按照职业是否是程序员来分类,那么分错的个数是2个,这表明按照职业来进行分类更适合作为根节点
回答第二个问题:
按照年龄是否大于等于25来分类,那么分错的个数是3个,如果我们按照年龄大于等于30来分类,那么分错的个数是2个,
这表明按照大于等于30来分类更合适

数学上的一些概念:
熵:熵越大,越混乱,熵越小,混乱越小
–注意这里和稳定的区别(他们传闻说是越稳定,越混乱,越不稳定,混乱越小),还是不理会这个概念了
熵 = -sum(P * logP), 当A和B平均分类时熵最大: -(0.5 * log0.5 + 0.5 * log0.5) =1
当全部分类为A或者B时,熵最小: -(1 * log1 + 0) = 0
前面的选择根节点或者分裂节点的目的都是为了熵减的目的
也就是比如label的熵为0.6,那么哪个特征的熵和0.6越接近越适合作为根节点,
对于节点分裂的阈值也是同理,哪个阈值导致的熵和0.6越接近,就用哪个作为分裂阈值

参考文章:https://zhuanlan.zhihu.com/p/30059442

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值