统计学习笔记10

决策树

定义:

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点与有向边组成;其中结点有两种类型,一种是内部结点,另一种是叶结点,内部结点表示特征和属性,叶结点表示一个类
在这里插入图片描述

决策树的if-then规则:

决策树可以看作一个if-then规则的集合,在决策树中由根结点到叶结点的每一条路径构成一条规则,每条路径中的内部结点的特征或属性对应规则的条件,而叶结点的类对应规则的结论;决策树的路径或其所对应的if-then规则集合是互斥且完备的,即是每一实例有且只被一条路径或规则所覆盖(注:这里所说的覆盖指的是实例的特征与路径上的特征一致或实例满足规则的条件)

决策树与条件概率分布:

将特征空间划分为互不相交的单元或区域,在每一个区域定义一个类的概率分布就构成了一个条件概率分布,其中决策树的每一条路径就代表一个区域;各叶结点的条件概率分布往往偏向于某一类, 决策树分类时将该结点的实例强行分类到条件概率较大的那一类去
在这里插入图片描述
在这里插入图片描述

决策树的学习:

决策树学习的目标是根据给定的训练数据集构建一个决策树模型,使它能够对实例正确地分类

决策树学习的本质是从训练数据集中归纳出一条分类规则,然而,与数据集不相矛盾的决策树可能有多个,也可能不存在;我们要做的是找出一个与训练数据集矛盾较少的决策树,同时具有很好的泛化能力

从条件概率的角度来看,决策树学习是由训练数据集估计条件概率模型

决策树学习用损失函数表示这一目标,当损失函数确定后,学习问题就变为在损失函数的意义下选择最优决策树的问题

决策树的学习算法通常是递归地选择最优特征,并根据该特征对训练数据进行分割;开始时,构建根结点,将所有的数据集放在根结点,选择一个最优特征,按照这一特征将数据集分割成子集,使得各子集在当前条件下有一个最优的分类;如果所有子集可以基本正确地分类,那么就构建叶结点,并将这些子集分到所对应的叶结点中去;如果还有子集不能正确分类,那么就对这些子集选择新的最优特征,继续进行分割,构建相应的结点,如此递归下去,直到所有的子集被正确的分类,或者是找不到合适的特征。

然而,以上方法生成的决策树可能对训练数据有很好的分类能力,但对未知数据却未必有很好的分类能力,即发生过拟合,这就需要我们对已生成的树进行自下而上地剪枝

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

聆一

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值