决策树

决策树是一种分类模型,由内部结点(特征测试)和叶子结点(类别)组成。常用算法包括ID3、C4.5和CART,它们在信息增益、信息增益率、基尼指数等准则下选择特征进行分裂。C4.5改进了ID3处理连续数据和缺失值的能力,并引入剪枝减少过拟合。CART通过基尼指数构建二叉树。剪枝是决策树的重要环节,通过调整损失函数来简化模型,防止过拟合。Sklearn库提供了DecisionTreeClassifier,可配置如最大深度、最小样本数等参数。
摘要由CSDN通过智能技术生成

1 决策树

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内结点(internal node)和叶子结点(leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。

用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后将实例分到叶结点的类中。
在这里插入图片描述

决策树的构建是数据逐步分裂的过程,构建的步骤如下:

  1. 将所有的数据看成是一个节点,进入步骤2;
  2. 从所有的数据特征中挑选一个数据特征对节点进行分割,进入步骤3;
  3. 生成若干子节点,对每一个子节点进行判断,如果满足停止分裂的条件,进入步骤4;否则,进入步骤2;
  4. 设置该节点是子节点,其输出的结果为该节点数量占比最大的类别。

通过以上步骤,我们可以看出需要解决的两个问题:如何选择分裂的特征;停止分裂的条件是什么。

2 信息论基本概念


  • 在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量。设 X X X是一个取有限个值的离散随机变量,其概率分布为 P ( X = x i ) = p i P \left( X = x _ { i } \right) = p _ { i } P(X=xi)=pi,则随机变量X的熵定义为: H ( X ) = − ∑ i = 1 n p i log ⁡ p i H ( X ) = - \sum _ { i = 1 } ^ { n } p _ { i } \log p _ { i } H(X)=i=1npilogpi
  • 条件熵
    条件熵 H ( Y ∣ X ) H(Y|X) H(YX)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵(conditional entropy) H ( Y ∣ X ) H(Y|X) H(YX),定义为X给定条件下Y的条件概率分布的熵对X的数学期望: H ( Y ∣ X ) = ∑ i = 1 n P ( X = x i ) H ( Y ∣ X = x i ) H ( Y | X ) = \sum _ { i = 1 } ^ { n }P \left( X = x _ { i } \right) H ( Y | X = x _ { i } ) H(YX)=i=1nP(X=xi)H(YX=xi)
  • 信息增益
    特征A对训练数据集D的信息增益 g ( D , A ) g(D,A) g(D,A),定义为集合D的经验熵 H ( D ) H(D) H(D)与特征A给定条件下D的条件熵 H ( D ∣ A ) H(D|A) H(DA)之差 g ( D , A ) = H ( D ) − H ( D ∣ A ) g ( D , A ) = H ( D ) - H ( D | A ) g(D,A)=H(D)H(DA)
  • 信息增益比
    特征A对训练数据集D的信息增益比 g R ( D , A ) g_R(D,A) gR(D,A)定义为其信息增益 g ( D , A ) g(D,A) g
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值