目录
一、决策树基本概念
1.决策树的构成
分类决策树模型是一种描述对实例进行分类的树形结构。决策树由节点(节点代表一个特征或属性)、分支(分支代表一个特征取值)、叶子节点(叶子节点代表一个类别或结果)组成。
2.决策树学习的基本算法
- 输入训练集D(即样本)和属性集A(即特征)
- 生成结点(根结点)
- 若D中样本全属于同一类别C,无需划分,叶子节点标记为类别C,返回。
- 若属性集为空,则说明在决策树的构建过程中,可能已经使用了所有的属性或特征来划分数据集,并且当前节点的数据样本中不存在其他未使用过的属性。此时,当前结点标记为叶子节点,以该结点所含样本最多的类别当结果。
- 若所有样本在所有属性上取值相同,此时,当前结点标记为叶子节点,以该结点所含样本最多的类别当结果。
- 当前结点包含的样本集合为空,说明没有收集到某种特征的样本,这种时候,当前结点标记为叶子节点,以父结点中类别数量多的当结果。
决策过程中提出的每个判定问题都是对某个属性的“测试” 每个测试的结果或是导出最终结论,或者导出进一步的判定问题,其考虑范围是在上次决策结果的限定范围之内 从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树
3.特征选择
构建决策树的关键是选择最佳的特征来进行划分。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高。常用的特征选择指标包括信息增益(ID3)、增益率(C4.5)、基尼指数(CART)等,它们用于度量特征对分类任务的贡献程度。
-
信息增益(ID3)
1.“信息熵”是度量样本集合纯度最常用的一种指标,假定当前样本集合D中第k类样本所占的比例为 pk (K=1, 2, ..., |y|),则D的信息熵定义为
Ent(D)的值越小,则D的纯度越高
计算信息熵时约定:若p = 0,则plog2p=0
Ent(D)的最小值为0,最大值为log2|y|
2.离散属性a有V个可能的取值{a1, a2, ..., aV},用a来进行划分,则会产生V个分支结点,其中第v个分支结点包含了D中所有在属性a上取值为av的样本,记为Dv。则可计算出用属性a对样本集D进行划分所获得的“信息增益”:
信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”越大;
信息增益对可取值数目较多的属性值有偏好;
所以为了预防增益太大这种情况,我们引入了增益率。
-
增益率(C4.5)