统计学习方法(四)

这一章看的有点晕,心塞,毫无学习动力,概念是简单的,做题是麻烦的

五、决策树

1、if - then 规则

由决策树的根节点到叶节点的每一条路径都可以构建一个规则:路径的内部节点特征对应着规则的条件。


2、决策树学习

本质是从训练数据集中归纳出一组分类规则,算法常用有ID3、C4.5、CART


3、特征选择的参数

定义了熵(H ( X ) )与条件熵(H (Y | X) ),是随机变量的不确定性的度量。

熵:sum(p log (p) )

信息增益 g( D, A ) = H ( D ) - H ( D | A )

信息增益比 gR( D, A )= g( D, A ) / Ha ( D ) 【x = A的熵】


5、减枝算法

定义决策树学习的损失函数(整个树的熵和上节点数目 α|T| 当正则项,用来平衡复杂度与预测误差)

减枝算法:从叶节点开始,计算回缩前后整个子树的损失函数,若减小,则回缩节点



4、算法

4.1、ID3算法

a、计算各个特征对D的信息增益,选择信息增益最大的特征,并按照 Ag = ai 将D分割成各个子集,以此构建子节点

b、若子节点为空或者是信息增益小于阈值 ε ,那么记为单节点,否则继续循环,每次都找到局部最优特征值(每次的特征值都不一样,知道特征值用完)


4.2、C4.5

将信息增益换成信息增益比


4.3、CART

可用于分类与回归(给定输入随机变量X条件下输出随机变量Y的条件概率)

4.3.1、CART决策树生成

a、回归树(按照我的理解写出算法过程)

采用启发式(对每个切分变量与切分点进行比较)选取切分变量与切分点(平方误差最小的切分变量与切分点)得到最优的切分变量与切分点(利用最小二乘法得到最优)进行切分(重复并递归,将区域切分成 m 个子区域),切分之后每个区域都有对应的输出值,这样就生成了一个回归树。

b、分类树

此处定义基尼指数:sum(p (1-p)),与熵类似,但更接近实际的分类误差率

计算所有特征对该特征可取值的基尼指数,选取最小为最优特征与最优切分点,并进行切分,循环直到满足停止条件。

4.3.2、CART剪枝

a、首先从 α = ∞ 时(只有一个根节点为最优解)开始,自下而上计算每个节点的 g(t)【含有基尼指数或其他,越小表示数据的分类误差越小】,找到最小处,剪枝并将 α = g(t),直到最后只剩下根节点与其子节点,这样就可以根据剪枝次序形成一个子树序列

b、利用交叉验证集在所有子树序列中找到一个最优子树(利用平方误差或者是基尼指数最小)


6、题目

李航 统计学习方法 第五章 决策树 课后 习题 答案



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值