【笔记_统计学习方法】ch5 决策树

一、概念

  1. 一种分类回归模型,包含三个步骤:
    1)特征选择
    2)决策树生成
    3)决策树修剪
  2. 内部节点表示一个特征,叶结点表示一个类
  3. 是if-then的集合,重要性质:【互斥且完备】
    每个实例都被一条路径,且只被一条路径所覆盖
  4. 损失函数:正则化的极大似然函数
  5. 【决策树的生成】:局部最优
    所有训练data都放在根节点中,选择一个【最优特征】,按这一特征将训练data分割为子集;若这些子集已经能被正确分类,那么构建叶结点,将子集分到对应的叶结点;若有的子集还不能被正确分类,则对该子集选择新的【最优特征】,继续进行分割
  6. 【决策树的剪枝】:全局最优
    简化模型,提高泛化能力(对测试数据的预测能力),避免过拟合

二、特征选择

选择具有更好分类能力的特征,选择标准:信息增益、信息增益比

1. 信息增益(ID3算法)

【熵(entropy)】 表示随机变量的【不确定性】的度量

H(X) = — Σ (p * logp)

熵越大,随机变量不确定性越大

【条件熵】H(Y|X) 表示在已知随机变量X的条件下随机变量Y的不确定性

H(Y|X) = Σ (pi * H(Y|X=xi) )

【信息增益】 表示由于特征A而使数据集D的分类的 【不确定性的减少程度】

g(D, A) = H(D) - H(D|A)	训练集D,特征A

【信息增益】等价于训练集中类与特征的【互信息】
信息增益大的特征具有更强的分类能力,信息增益越大,不确定性减少越多

【特征选择准则】:计算各个特征的信息增益,选择信息增益最大的特征

2. 信息增益比(C4.5算法)

信息增益比 = 信息增益 / Ha(D)
Ha(D)为D关于特征值A的熵

三、决策树生成

1. ID3算法

【方法】:在各个节点上用【信息增益】来选择特征。从根节点开始对节点计算所有可能的信息增益,选最大的作为节点特征 ,对该特征的不同取值建立子节点,再对子节点递归调用上述方法
【缺点】:容易过拟合

2. C4.5算法

与ID3的唯一区别:用【信息增益比】选择特征

四、决策树的剪枝

剪枝:极小化决策树的损失函数(等价于正则化的极大似然估计)——添加正则化项(罚项)
子树越大,与训练数据拟合越好,模型复杂度越高
子树越小,与训练数据拟合越差,模型复杂度越低

五、CART算法(分类与回归决策树)

CART是【二叉决策树】,对回归树用【平方误差损失函数】最小化准则选择最优特征,对分类树用【基尼指数 Gini】最小化准则选择最优特征

1. 回归树

切分变量:对输入空间进行划分的变量
切分点:按切分变量的某个取值进行划分,该取值为切分点
【方法】在每个结点处,遍历所有输入变量,找到最优(平方损失最小)的【切分变量和切分点】,依次将输入空间切分为两个区域,再对每个区域递归重复上述过程。————得到【最小二乘回归树】

2. 分类树

分类树用【基尼指数 Gini】最小化准则选择最优特征

【基尼指数】
Gini = Σ pi * (1-pi)

若是二分类:Gini = 2 * pi * (1-pi)

根据特征A是否等于a,D被分为了D1,D2两个子集
在特征A的条件下,集合D 的基尼指数为:

Gini(D, A) = |D1| / |D| * Gini(D1) + |D2| / |D| * Gini(D2)

基尼指数越大,样本集合的不确定性越大,类似与熵,所以选择【基尼指数最小的特征】作为最优特征

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值