决策树详解以及常见面试题

本文详细介绍了决策树的训练过程,包括最优划分属性的选择、处理连续和缺失值的方法,以及剪枝操作的预剪枝和后剪枝策略。此外,还探讨了多变量决策树和CART树在分类和回归中的应用。最后,列举了一些常见的决策树面试问题,如特征尺度变化的影响和决策树的损失函数。
摘要由CSDN通过智能技术生成

决策树

决策树是最符合人类思考模式,最容易被理解和解释的模型之一,所以在一些需要可解释性的场景下经常使用,其训练过程相比其他机器学习算法也更加通俗易懂

训练过程

  1. 初始情况下生成一个根节点,所有的数据都在这一个节点之内。
  2. 寻找一个最能区分开不同类样本的最优划分属性,按照样本在该属性上取值的不同,分配到不同的下一级的子节点上。
  3. 如果某个节点上没有了样本或者可用来划分的属性或者样本都属于同一个类,则停止生成下一级节点,否则继续2中步骤生成更深的决策树。
  4. 每个叶节点被标记为该节点样本最多的那个类别,预测新样本时,从根节点开始判断新样本的各个属性值,最后落到的叶节点的类别就是预测得出的新样本类别

最优划分属性

最优划分属性存在一个发展历史,也是一些经典决策树算法的提出历史。

如最开始的ID3决策树,利用划分前后的信息增益作为标准选择最优划分属性。
在这里插入图片描述
其中Ent为信息熵,Gain即为原节点不划分时的信息熵减去减去划分后节点带上样本个数权重的信息熵之和。
在这里插入图片描述
但是上述方法存在天生偏好,如果某个属性取值本来就很多,那么生成很多节点,节点的纯度就会比较高就特别容易被选取为划分属性。<

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值