李航《统计机器学习》第5章 决策树

本文详细介绍了决策树模型,包括其在分类和回归问题中的应用、损失函数、特征选择、决策树生成和剪枝策略。重点讨论了ID3、C4.5和CART算法,并解释了信息增益和信息增益比的概念。此外,还提到了决策树的过拟合问题及剪枝方法,以及CART算法和随机森林的简要介绍。
摘要由CSDN通过智能技术生成

决策树模型

用来解决分类和回归问题,可以看成是一个if-then规则的集合,或者看做一个条件概率分布
优点:具有可读性,分类速度快
决策树由结点和有向边组而成,内部结点表示一个feature,叶节点表示一个class

决策树的学习

损失函数通常选择 正则化的极大似然函数i.e.结构风险最小化
包括 特征选择,决策树生成和剪枝三部分
常用的算法有ID3,C4.5,CART

特征选择

选择的准则是信息增益or信息增益比
复习一下熵的定义

熵 (entropy)是表示随机变量不确定性的度量

假设X是一个取值个数有限的离散随机变量,概率分布为
P(X=Xi)=pi,i=1,2,...,n
则随机变量X的熵为(由于熵大小只和X分布有关,有时直接记作H(p)
H(X)=ni=1pilogpi
熵越大,随机变量的不确定性越大
0<=H(p)<=logn
假设X,Y 服从联合概率分布
P(X=Xi,Y=yj)=pij
条件熵定义为
H(Y|X)=ni

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值