决策树

最新推荐文章于 2024-08-04 21:08:26 发布

Totoro_hui

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量3.1k

点赞数

分类专栏：机器学习文章标签：机器学习算法决策树 ID3-C4-5

本文链接：https://blog.csdn.net/huanghui147258369/article/details/53689068

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

决策树

决策树

1 如何划分决策树

1.1 决策树的构造

不同于贝叶斯算法，决策树的构造过程不依赖领域知识，它使用属性选择度量来选择将元组最好地划分成不同的类的属性。所谓决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。

构造决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支，其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。分裂属性分为三种不同的情况：

1、属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。
2、属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子集进行测试，按照“属于此子集”和“不属于此子集”分成两个分支。

- 3、属性是连续值。此时确定一个值作为分裂点split_point，按照>split_point和<=split_point生成两个分支。

属性选择度量算法有很多，一般使用自顶向下递归分治法，并采用不回溯的贪心策略。这里介绍ID3和C4.5两种常用算法。

1.2 ID3 算法

ID3算法的核心思想就是以信息增益度量属性选择，选择分裂后信息增益最大的属性进行分裂。

信息熵：
假定当前样本集合D中第k类样本所占的比例为 ${{\rm{p}}_{\rm{k}}}$ （k=1，2….,|y|），可以用属于此类别元素的数量除以训练元组元素总数量作为估计，则D的信息熵为

E n t (D) = - \sum k = 1 | y | p k log 2 p k

${\rm{Ent(D) = - }}\sum\limits_{k = 1}^{|y|} {{p_k}} {\log _2}{p_k}$
Ent(D)的值越小，则D的纯度越高。
熵的实际意义表示是D中元组的类标号所需要的平均信息量。

信息增益：
假定离散属性a有V个可能的取值{a1，a2，…., ${a^v}$ },若使用a对样本D进行划分，则会产生V个分支节点。其中第V个节点上取值为 ${a^v}$ 的样本，记为 ${D^v}$ 。则a对D划分的期望增益为：

E n t (a) = \sum v = 1 V | D v | | D | E n t (D v)

$Ent(a) = \sum\limits_{v = 1}^V {{{|{D^v}|} \over {|D|}}Ent({D^v})}$
故属性a对样本D进行划分所获得的“信息增益”（information gain）：

G a i n (D, a) = E n t (D) - \sum v = 1 V | D v | | D | E n t (D v)

$Gain(D,a) = Ent(D) - \sum\limits_{v = 1}^V {{{|{D^v}|} \over {|D|}}Ent({D^v})}$

一般而言，信息增益越大意味着使用属性a来进行划分所获得的“纯度提升越大”

1.3 C4.5算法

注意： ID3算法存在一个问题，就是偏向于多值属性，例如，如果存在唯一标识属性ID，则ID3会选择它作为分裂属性，这样虽然使得划分充分纯净，但这种划分对分类几乎毫无用处。ID3的后继算法C4.5使用增益率（gain ratio）的信息增益扩充，试图克服这个偏倚。

C4.5算法首先定义了“分裂信息”，其定义可以表示成：

I V (a) = - \sum v = 1 V | D v | | D | log 2 | D v | | D |

$IV(a) = - \sum\limits_{v = 1}^V {{{|{D^v}|} \over {|D|}}{{\log }_2}{{|{D^v}|} \over {|D|}}}$

则增益率为：

G a i n_r a t i o (D, a) = G a i n ( D , a ) I V ( a )

$Gain\_ratio(D,a) = {{Gain(D,a)} \over {IV(a)}}$
其中，IV(a)称作属性a的固有值。属性a的可能取值数目越多，则IV（a）的值越大。因此增益率对取值数目较少的属性有所偏好。

1.4 基尼系数

除却上述两种选择划分属性的方法，CART决策树还可以使用基尼系数来选择划分。数据集D的纯度可以使用基尼系数来度量：

G i n i (D) = \sum k = 1 | y | \sum k' \neq k p k p k' = 1 - \sum k = 1 | y | p 2 k

$Gini(D) = \sum\limits_{k = 1}^{|y|} {\sum\limits_{{k'} \ne k} {{p_k}{p_{k'}}} } = 1 - \sum\limits_{k = 1}^{|y|} {p_k^2}$
Gini(D)越小。则数据集D的纯度越高。
则属性a的基尼系数为

G i n i_i n d e x (D, a) = \sum v = 1 V | D v | | D | G i n i (D v)

$Gini\_index(D,a) = \sum\limits_{v = 1}^V {{{|{D^v}|} \over {|D|}}Gini({D^v})}$

2 如何防止决策树的过拟合

2.1 剪枝处理

预剪枝：是指在决策树生成过程中，对每个节点在划分钱先进行估计，若当前节点的划分不能带来决策树泛化能力的提升，则停止划分并将当前节点标记为叶节点。
后剪枝：是先从训练集生成一棵完整的决策树，然后自底向上的对非节点进行考察。若将该节点对应的子树替换为叶节点能带来泛化能力的提升，则将该子树替换为叶节点。

预剪枝和后剪枝判断度量为验证集精度是否提升。