决策树理论笔记

最新推荐文章于 2024-09-11 10:21:31 发布

「已注销」

最新推荐文章于 2024-09-11 10:21:31 发布

阅读量191

点赞数

分类专栏：机器学习专栏文章标签：机器学习决策树

本文链接：https://blog.csdn.net/ke996/article/details/112211989

版权

机器学习专栏专栏收录该内容

6 篇文章 1 订阅

订阅专栏

决策树理论

1.前言：

机器学习是由模型、策略、和算法实现的，所谓模型是由该模型的所有参数所组成的假设空间、而策略是指按照怎样的方式在假设空间中选择某个特定参数组合的模型。即策略对应着损失函数的最小化。而所谓算法则是实现损失函数最小化的方法，如梯度下降、牛顿法。

2.决策树概述：

决策树是一套条件概率模型，由一般节点和叶节点组成，每个节点意味着对某个特征进行划分，最后由经系列划分后形成单一类的叶节点。这个过程，特征的选择在于选取对训练数据具有分类能力的特征。通常选取准则是信息增益和信息增益比.

3.信息增益

3.1熵与条件熵

熵：表示随机变量不确定性的度量,随机变量X分布越离散则H(X)值越大)

条件熵：表示已知随机变量X的条件下随机变量Y的不确定性。定义为X给定条件下Y的条件概率分布的熵对X的数学期望.注意的是这里的条件概率也是一个随机变量的概率分布，对此概率求熵.由于X分布是具有多值，也具有多个熵，因此之后再求熵的数学期望。
在这里插入图片描述
信息增益：表示得知特征X的信息而使得类Y的信息不确定性减少的程度，也就是熵与条件熵的差值.D为数据集，A为特征.

信息增益准则：对训练数据集D，计算每个特征的信息增益，选择信息增益最大的特征. 现实计算中通常我们是对类的个数以及特征不同取值数据的个数，以及在该特征取值中不同的类的个数来计算熵与条件熵.有下面的式子通过训练数据计算经验熵与经验条件熵，其中数据集D有k类，特征值A有n个取值划分为D1到Dn。Dik为Dn与Ck之间的交集.
在这里插入图片描述
信息增益比：信息增益比较倾向于选择特征取值多的取值，如上式H(D|A)，A取值越多，越离散，则H(D|A)就会越大.因此我们得用一个特征A的熵作为分母抵消这种倾向.

4.ID3算法

ID3算法采用信息增益作为挑选特征的方法，直到所有的特征的信息增益均很小或没有特征可选为止，最后得到一颗决策树.算法详细请见《统计学习方法》-李航

5.C4.5算法

C4.5算法同ID3算法一样，只不过是通过信息增益比作为挑选特征的方法.

6.剪枝

设生成的决策树叶节点数量为T，Nt为第t个叶节点数据量，共有K类，Ntk表示在Nt中第k类的数量，损失函数为各个叶节点数据分类的熵与数量Nt权重的积再加上复杂度T，a>=0.
在这里插入图片描述

剪枝算法：1.计算每个节点的经验熵。2.递归的从树的叶节点向上回缩。3.若回缩后的损失函数Ca变小，则决定剪枝.

7.CART算法

这里仅介绍数据是离散数据的CART算法，CART算法是利用基尼指数最小化来构建二叉决策分类树.

7.1基尼指数

基尼系数只关注该数据集内的k个分类的离散程度，若K个分类越离散，则Gini越大，反之越小，如果我们选择了一个特征A对数据集D进行二分类形成D1和D2，在这种分类下使得Gini(D,A)越小则越好，这里有两个选择，第一是对特征的挑选，第二是对划分的挑选，对于离散数据，我们选择特征的一个取值为一类，其余类之和为第二类.
在这里插入图片描述

CART算法：计算所有特征以及特征的取值所形成的基尼指数，选取值最小的组合.
CART算法剪枝参见统计学习方法p85，这部分还是挺有趣的.