《机器学习西瓜书》学习笔记——第四章_决策树

最新推荐文章于 2023-07-31 00:28:35 发布

九点澡堂子

最新推荐文章于 2023-07-31 00:28:35 发布

阅读量471

点赞数 1

分类专栏：机器学习机器学习西瓜书读书笔记文章标签：决策树

本文链接：https://blog.csdn.net/weixin_38278334/article/details/82961504

版权

机器学习同时被 2 个专栏收录

20 篇文章 12 订阅

订阅专栏

机器学习西瓜书读书笔记

10 篇文章 6 订阅

订阅专栏

1. 基本概念

决策树是一类常见的机器学习算法，是一种简单但是广泛使用的分类器。顾名思义，决策树基于树结构进行决策。一般的，一颗决策树包含一个根结点、若干个内部结点和若干个叶结点；叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集。从根结点到每个叶结点的路径对应一个判定测试序列。
决策树学习的目的是为了产生一颗泛化能力强，即处理未见示例能力强的决策树。

决策数有两大优点：
1）决策树模型可以读性好，具有描述性，有助于人工分析；
2）效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。

2. 划分选择

决策树学习的关键是如何选择最优划分属性，一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能的属于同一类别，即结点的"纯度"越来越高。这里介绍三个划分准则：

2.1 信息增益

“信息熵”是度量样本集合纯度最常用的一种指标。假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k=1,2,3,...|\mathcal{Y}|)$ ,z则 $D$ 的信息熵定义为

$Ent(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_k log_2^{p_k}$

约定：若 $p = 0$ ,则 $plog_2^p=0$

$E n t (D)$ 的值越小，则 $D$ 的纯度越高。

假定离散属性 $a$ 有V个可能的取值 ${a^1,a^2,...a^V\}$ ,若使用a来对样本集 $D$ 进行划分，则会产生 $V$ 个分支结点，其中第 $v$ 个分支结点包含了 $D$ 中所有在属性 $a$ 上取值为 $a^v$ 的样本，记为 $D^v$ .根据上式计算出 $D^v$ 的信息熵，考虑到不同的分支结点所包含的样本数不同，给分支结点赋予权重 $D^v|/|D|$ ,即样本数越多的分支结点的影响越大，于是可计算出用属性 $a$ 对样本集进行划分所获得的“信息增益”。

$Gain(D,a)=Ent(D)-{\sum_{v=1}^V{|D^v|\over|D|} Ent(D^v)}$

一般而言，信息增益越大，意味着使用属性 $a$ 来进行划分所获得的“纯度提升”越大，因此，可用信息增益来进行决策树的划分属性选择，即选用 $a_*=\arg$ maxGain(D,a), ID3决策树学习算法就是用此准则来选择划分属性。

2.2 增益率

信息增益准则对可取数值数目较多的属性有所偏好，为减少这种偏好带来的不利影响，著名的C4.5决策树算法不直接使用信息熵，而是使用“增益率”来选择最优划分属性。增益率定义为：
$Gain\_ratio(D,a)$ = $Gain(D,a)\over IV(a)$
其中
${\sum_{v=1}^V{|D^v|\over|D|} log_2 ^{|D^v|\over|D|}}$
称为属性 $a$ 的固有值，属性 $a$ 的可能取值数目越大（V越大）， $I V (a)$ 的值通常会越大。

增益率准则对可取数值数目较少的属性有所偏好，所以，C4.5算法并不是直接选择增益率最大额划分属性，而是使用启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

2.3 基尼指数

CART决策树使用“基尼指数”来选择划分属性，数据集 $D$ 的纯度可用基尼指指来度量：
$Gini(D)=\sum_{k=1}^{|\mathcal{Y}|}\sum_{k'\neq k} p_kp_{k'}$ =1- $\sum_{k=1}^{|\mathcal{Y}|}p_k^2$
直观上， $G i n i (D)$ 反应了从数据集 $D$ 中随机抽取两个样本，其类别标记不一致的概率，因此 $G i n i (D)$ 越小，数据集 $D$ 的纯度越高。

属性 $a$ 的基尼指数定义为

Gini_index $(D, a)$ = $\sum_{v=1}^V {|D^v|\over|D|}Gini(D^v)$

于是，我们在候选属性集合A中，选择使得划分后基尼指数最小的属性作为最优划分属性，即 $a_*=\arg$ min $Gini\_index(D,a)$ .

3. 剪枝处理

剪枝是决策树学习算法针对“过拟合”的主要手段。决策树学习中，为了尽可能正确的分类样本，结点划分过程将不断重复，有时会造成决策树分支过多，这时需要“剪枝”来降低过拟合的风险。剪枝方法和程度对决策树泛化性能影响显著。
决策树剪枝的基本策略有“预剪枝”和“后剪枝”
预剪枝是指在决策过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能的提升，则停止划分并将当前结点标记为叶节点；
后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来泛化性能提升，则将该子树替换为叶结点。

预剪枝

后剪枝

4.连续与缺失值

连续值处理

采用连续属性离散化技术
简单策略，二分法(C4.5采用的机制)

缺失值处理

九点澡堂子

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《机器学习西瓜书》学习笔记——第四章_决策树

1. 基本概念决策树是一类常见的机器学习算法，是一种简单但是广泛使用的分类器。顾名思义，决策树基于树结构进行决策。一般的，一颗决策树包含一个根结点、若干个内部结点和若干个叶结点；叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集。从根结点到每个叶结点的路径对应一个判定测试序列。决策树学习的目的是为了产生一颗泛化能...
复制链接

扫一扫