决策树算法详解(一)

定义

分类决策树是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点。内部结点表示分类的一个特征或者属性,叶结点表示实例属于某一个类。内部结点将特征划分为互不相交的部分。

算法思想

决策树的本质是从训练数据集中归纳出一组分类规则。即从数据集中对特征进行选择,然后按照这些特征的值,将数据集划分为互不相交的部分。

信息增益

在信息论和概率统计中,熵是表示随机变量不确定性的度量。设X是一个取有限个值的离散随机变量,其概率分布是:
在这里插入图片描述
则随机变量X的熵则为下式:
在这里插入图片描述
或许你听过这样一个概念,如果一件事百分之百,或者百分之零发生,那么我们就可以进行判断,这是最有利我们进行判断的。但是一般情况下,我们不会得到绝对或者绝对非的概率。这时候,我们能想到的就是:向不确定性减少的最多的方向进行选择。这就好比:如果条件A使你成功的概率提高40%和条件B使你成功的概率提高20%。那么我们必然会选择条件A。所谓的信息增益就是选定一个特征之后,分类的不确定性减少的程度(也就是判断成功的提高程度)。
在这里插入图片描述其中:

  1. 式子1:信息增益的概念。在选择特征A的条件下,标签D的信息的增量。式子的第一项表示:在未选择特征的条件下,整个数据集中标签D的信息熵。式子的第二项表示:在特征A选择之后,整个数据集中标签D的信息熵
  2. 式子2:在条件A发生的情况下,D的信息熵计算公式。特征A将数据集划分了几个部分,每部分分开进行计算信息熵,然后进行求和。
  3. 式子3:信息熵的定义

特征选择

正如我们在信息增益的时候说过:选择信息增益最大的特征进行数据的划分。

信息增益比

在使用信息增益最大值作为特征选择的原则时,数据集划分偏向于选择特征取值较多的特征。就好比:特征A有好、坏两个取值,特征B有好、中、坏三个取值。这时候:在特征选择时会偏向特征B。所以,为了避免这种问题:提出了信息增益比。信息增益比:就是在选择一个特征之后,信息增益的值与选择特征后,信息熵的值的比值。公式如下:
在这里插入图片描述

算法描述

ID3

输入:训练数据集D,特征集A,阈值ε
输出:决策数T
步骤:

  1. 若D中所有实例属于同一个类,即数据集中的数据标签相同。则T为单节点树,并将该类作为该结点的类标记。返回T
  2. 若特征集为空,即没有特征集。则T为单结点树。并将数据集中类标记数量最大的类作为该节点的类
  3. 步骤1、2的条件不满足时,进行后续步骤的操作
  4. 计算特征集A中各特征对D的增益,选择信息增益最大的特征进行数据的划分;
  5. 如果选择的特征,其信息增益小于ε,则将T设为单结点树,并将D中最大的类标记数量最多的类作为该结点的类标记。返回T
  6. 否则:对选择的特征的每一个取值,将数据进行划分。将划分后的数据集中实例数最大的类作为类标记,构建子结点。由结点和子结点构成数T,返回T
  7. 对划分后的子结点进一步进行划分。循环步骤1到步骤6

C4.5

步骤和ID3一模一样,只是在特征选择时,采用的是信息增益比,而不是信息增益。

注:选择特征之后,在之后的子树中就没有用了

剪枝

按照以上的ID3或者ID4.5的步骤对数据进行划分,那么其对训练数据的划分将会很好,但是这样训练出来的决策树,其泛化能力就会变差。也就是我们所说的过拟合。所以,出于这方面的考虑,在上面生成决策数的决策数的基础上进行剪枝。即对模型进行简化。
在前面,我们知道,当数据的经验熵(就是前面所说的信息熵,其通过数据估计得到时,就叫信息熵)越小,我们就越能确定这件事会发生。所以,一棵决策数越好,其每个叶子结点上的经验熵之和越小:
在这里插入图片描述其中:
Nt:表示第t个结点上的数据量
Ntk:表示第t个结点上标签为k的数据量
式子1:计算的是整棵决策数的经验熵。(可能有人会说:加个分子:数据量的总数。但是这个值是常数,所以加不加都没有什么大关系)
式子2:计算单个叶子节点上的经验熵

现在:我们有了指标来衡量训练出来的模型。但是就如之前所说的,为了防止过拟合,需要衡量模型的复杂度。在这里,我们使用叶子结点的个数来衡量模型的复杂度。因此,得到以下衡量函数:
在这里插入图片描述其中:
α:系数,用来调整两部分比例
上式:当模型拟合训练集越好,其叶子结点就越多,那么式子的值就会变大;如果叶子结点越少,拟合的越差,式子的值也会变大。所以,两部分相互牵制。当α过大时,容易欠拟合,因为叶子结点数占主导地位了。当α过小了,容易过拟合,因为经验熵占主导地位了。

剪枝算法

输入:ID3或者C4.5生成的决策树T,参数α
输出:修建后的子树Ta;
步骤:

  1. 计算每个结点的经验熵
  2. 递归的从树的叶子结点向上进行回缩。设一组叶子结点缩到父节点之前的损失函数的数值为Cb,回缩到父节点后的损失函数的数值为Ca
  3. 若Ca<Cb,则回缩
  4. 递归步骤2,步骤3,直到决策数不能回缩为止。

模型优点

  1. 不需要进行数据的预处理

模型缺点

  1. 不支持数据中有缺失变量
  2. 当某些类占主导地位时,会出现偏差。因此在训练模型之前最好先平衡数据集
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值