统计学习方法 (第5章) 决策树 学习笔记

本文详细介绍了决策树的学习方法,包括决策树模型、特征选择的标准如信息增益和信息增益比,以及CART算法的基尼指数。决策树生成过程涉及选择信息增益最大的特征,并通过C4.5和CART算法进行二叉树划分。此外,还提及了决策树的剪枝策略。
摘要由CSDN通过智能技术生成

第5章 决策树

  决策树是一种基本的分类与回归方法。这章主要讨论用于分类的决策树,也就是基于特征对实例进行分类的决策树。决策树通常包括3个步骤:特征选择、决策树的生成、决策树的修剪。

5.1 决策树模型

  分类决策树模型是一种描述对实例进行分类的树形结构,内部节点表示一个特征或属性,叶子节点表示一个类。它可以认为是if-then规则的集合,也可以是定义在特征空间与类空间上的条件概率。

  

  决策树的本质上是从训练数据集中归纳出一组分类规则。我们需要的是一个与训练数据矛盾较小的决策树,同时具有很好的泛华能力。决策树学习用损失函数表示这一目标。其损失函数通常是正则化的极大似然函数。决策树学习的策略是以损失函数为目标函数的最小化。

  如果特征数量很多,也可以在决策树学习开始的时候,对特征进行选择,只留下对训练数据有足够分类能力的特征。

5.2 特征选择

  直观上,如果一个特征具有更好的分类能力,或者说,按照这一特征将训练数据集分割成子集,是的各个子集在当前条件下有最好的分类,则就更应该选择这个特征。信息增益就能够很好地表示这一直观的准则。  

  特征选择的准则是信息增益信息增益比

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值