决策树设置分类的标签_树模型(1)——决策树常见面试题整理

本文深入探讨决策树的原理,解析信息熵、信息增益与信息增益率,讨论过拟合原因及解决办法,如剪枝策略。此外,还涵盖决策树处理缺失值、与逻辑回归的对比及其优缺点。
摘要由CSDN通过智能技术生成

b980e60bc46e5d6248ab7545908a295d.png

1.决策树的原理

决策树是一种树结构,从根节点出发,每个分支都将训练数据划分成了互不相交的子集。分支的划分可以以单个特征为依据,也可以以特征的线性组合为依据。决策树可以解决回归和分类问题,在预测过程中,一个测试数据会依据已经训练好的决策树到达某一叶子节点,该叶子节点即为回归或分类问题的预测结果。

从概率论的角度理解,决策树是定义在特征空间和类空间上的条件概率分布。每个父节点可以看作子树的先验分布,子树则为父节点在当前特征划分下的后验分布。

2.信息增益和信息增益率的理解
  • 1)信息熵:信息熵用来度量样本集合的纯度7617d3e0736c869cd5ae575b8ee32c59.png

    信息熵值越小,D 的纯度越高。

  • 2)信息增益:信息增益用来描述一次划分之后纯度的提升有多大。用不同的属性划分样本,会得到不同的信息增益。在 ID3 决策树算法中,我们取能使信息增益最大,即划分后纯度提升最大的属性作为当前决策树的划分属性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值