统计学习方法 学习记录3

第五章 决策树

决策树是一种基本的分类与回归方法。

决策树模型与学习

定义:分类决策模型是一种描述对实例及逆行分裂的树形结构,由结点,有向边组成。

两种结点:内部结点和叶结点。内部结点表示一种特征或属性,叶结点表示一个类。

if-then规则:决策树可以看成一个if-then规则集合(条件if- else)

条件概率分布:

当成if else ,纵向是概率。a1是第一特征选择,分类完,左子树再用a2作为特征选择进行分类;右子树用a3作为特征选择。

特征选择:在于选取对训练数据具有分类能力的特征。通常选择准则为信息增益与信息增益比。

信息增益:与表示随机变量不确定性地度量——熵有关系。(熵表示一个物质的混乱程度,熵越大,混乱程度越大)

用熵间接表示训练数据经过特征选择后,熵的变化量来表示。选取熵前后变化量最大来表示该特征选择具有很好的分类效果。

条件熵:表示在已知随机变量X的条件下随机变量Y的不确定性,随机变量X给定的条件下随机变量Y的条件熵。(Y在X条件确定下的混乱程度)

信息增益:得知特征X的信息后,使得类Y的信息不确定性减少的程度。(前后变化量)

g(D,A)=H(D)-H(D|A)

熵与条件熵之差称为互信息,决策树学习中的信息增益等价于训练数据集中类和特征的互信息。

信息增益大,具有强大的分类能力。

信息增益比:

g_{R}(D,A)=\frac{g(D,A)}{H(D)}

H(D)为不加占比的(再理解)

决策树的生成

ID3算法:核心为在决策树各个结点上应用信息增益准则选择特征。

1.从根结点开始,对结点计算所有可能的特征的信息增益,进行比较,选择信息增益最大的特征作为结点的特征,由该特征不同取值分类,建立子结点。

2.再对子结点递归调用1,构建决策树。(左子结点不属于同一类则以该结点为新的根结点,计算剩下特征的信息增益,再次选择信息增益最大作为特征;右结点属于同一类,则结束)

3.知道所有特征信息增益均很小或没有特征可以选择位置,最后得到一个决策树。

ID3算法只有树的生成,所以生成的树特别容易产生过拟合。

C4.5算法:与ID3算法相近,但以信息增益比准则选择特征。

决策树的剪枝:决策树生成算法递归地产生决策树,特别容易出现过拟合。也要考虑决策树的复杂度,对已生成的决策树进行简化。

在决策树学习中将已生成的树进行简化的过程称为剪枝。

剪枝算法是利用损失函数在经过剪枝之后的大小。剪枝之后损失函数变小,则剪枝成功。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值