统计学习方法——决策树

本文介绍了决策树学习的基本步骤,包括特征选择、生成和修剪。决策树通过信息增益或信息增益比来选择特征,以构建分类规则。ID3算法易过拟合,C4.5使用信息增益比改善这一问题,而CART则引入了基尼系数和二叉树结构。剪枝过程通过损失函数最小化来提高泛化能力,以防止过拟合。
摘要由CSDN通过智能技术生成

Decision Tree


决策树学习的三个步骤:特征选择、决策树的生成、决策树的修剪

决策树的结点:内部结点表示一个特征或属性,叶节点表示一个分类

决策树的路径或其对应的if then 规则集合满足性质:互斥且完备

决策树学习本质上是从训练数据集中归纳出一组分类规则

与训练集不相矛盾的决策树可能有很多,我们需要的是一个与训练数据矛盾较小且分化能力较强的决策树

关于剪枝:我们需要对已生成的树自下而上进行剪枝,将树变得简单,从而使其具有更好地泛化能力

  • 具体地,就是去掉过于细分的叶结点,使其退回到父节点甚至更高的结点

决策树的生成只考虑局部最优,而决策树的剪枝则考虑全局最优

特征选择的准则:信息增益信息增益比

  • 信息增益 (information gain)
    • 信息论中,熵(entropy)是表示随机变量不确定性的度量
      • 熵越大,随机变量的不确定性就越大
    • 信息增益表示得知特征X的信息而使得类Y的信息不确定性减少的程度
    • g(D,A) = H(D) - H(D|A) 【特征A对训练集D的信息增益】
      • H(D) 和 H(D|A) 是经验熵
  • 信息增益比
    • 以信息增益划分训练集的特征,存在偏向于选择取值较多的特征的问题
    • 信息增益比,把特征的取值数量纳入考虑范围
  • 5
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值