统计学习方法——第5章 决策树

决策树(Decision Tree):

      决策树呈树形结构,在分类问题中表示基于特征对实例进行分类的过程。决策树可以看做if-then规则的集合,也可以认为定义在特征空间与类空间的条件概率分布。决策树学习通常包括3个步骤:特征选择,决策树生成和决策树修剪

5.1 决策树模型

    分类决策树由结点和有向边组成。结点有两种类型:内结点和叶节点。内结点表示一个特征或属性,叶节点表示一个类。

    决策树与if-then规则:

    将决策树转换为if-then过程:由决策树的根节点到叶节点的每一天路径构建一天规则;路径上内部节点的特征对应规则的条件,叶节点的类对应规则的结论。决策树的路径或其对应的if-then规则集合具有互斥完备性。即每条路径有且仅有一条规则与其对应。

    决策树与条件概率分布:

    决策树还可以表示给定特征条件下类的条件概率分布,这一条件概率分布定义在特征空间的一个划分。

    决策树学习本质是从训练数据集中归纳出一组分类规则。与训练数据集不相矛盾的数据集可能有多个,可能一个也没有。因此需要寻找一个与训练数据集矛盾较小的决策树,同时具有很好的泛化能力。因为从所有可能的决策树中选择最优决策树是NP完全问题(NP就是Non-deterministic Polynomial的问题,也即是多项式复杂程度的非确定性问题。假设P ≠ NP的图解。若P = NP则三类相同。假设P ≠ NP的图解。若P = NP则三类相同。而如果任何一个NP问题都能通过一个多项式时间算法转换为某个NP问题,那么这个NP问题就称为NP完全问题(Non-deterministic Polynomial complete problem),NP完全问题也叫做NPC问题),所以通常采用启发式方法,近似求解最优化问题,这样的决策树往往是次优的。

    决策树的深度决定决策树的复杂度,决策树的生成对应于模型的局部选择(局部最优解),决策树的剪枝对应于模型的全局选择(全局最优解)。

5.2 特征选取

    特征选取的准则:信息增益或信息增益比

    信息熵:H(X) = -\sum_{i=1}^np_i\log(p_i)

    条件熵:H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)

    当使用数据估计(如最大似然估计)时,信息熵和条件熵分别称为经验熵和经验条件熵。

    信息增益:特征A对训练数据集D的信息增益g(D,A) = H(D)-H(A,D)

    熵与条件熵的差称为互信息(mutual information),所以决策树学习中的信息增益等价于特征与类别的互信息。

    信息增益比:g_R(D,A) = \dfrac{g(D,A)}{H(D)}

5.3 决策树的生成

    ID3算法:

    从根节点出发,对节点计算所有可能特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征的不同值建立子节点,再对子节点递归调用以上方法,构建决策树,直到所有特征信息增益均很小或没有特征可以选择为止。ID3相当于用极大似然法进行概率模型的选择。

   C4.5算法:

   C4.5算法和ID3比较相似,区别在于用信息增益比代替信息增益。

5.4 决策树的剪枝

  决策树的剪枝通过极小化总的损失函数或代价函数来实现。设树T的叶节点的个数为|T|t是树T的叶节点,该叶节点有N_t个样本点,其中k类样本有N_t_k个,k = 1,2,...,KH_t(T)为叶节点t上的熵,则损失函数的定义为:

                                                             C_\alpha(T) = \sum_{t=1}^{|T|}N_tH_t(T)+\alpha |T|

   其中,H_t(T) = -\sum_k\dfrac{N_{tk}}{N_t}\log(\dfrac{N_{tk}}{Nt}),记C(T)=H_t(T),则C_\alpha(T) = C(T)+\alpha |T|

    所以剪枝就是最小化正则化的最大似然估计,从而对模型进行选择。

    最简单的剪枝方法:

   设一组叶节点回缩到其父节点之前和之后的整体树分别为T_BT_A,对应的损失函数分别为C_\alpha(T_A)C_\alpha(T_B),如果有:

C_\alpha(T_A)\leq C_\alpha(T_B),则进行剪枝,将父节点变为新的叶节点。

 

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值