【机器学习-西瓜书】第4章-决策树

wayaya112

已于 2022-03-25 14:37:38 修改

阅读量1.7k

点赞数

文章标签：机器学习

于 2022-03-25 00:25:34 首次发布

本文链接：https://blog.csdn.net/wayaya112/article/details/123707869

版权

结合李航老师《统计学习方法》，笔记参见【统计机器学习-李航】第5章决策树

4.1 导入

一棵决策树包含一个根节点、若干个内部节点（对应于属性测试）和叶节点（对应于决策结果）；

从根节点到每个叶节点的路径对应了一个判定测试序列。决策树学习的目的是产生一颗泛化能力强的决策树，基本流程遵循简单且直观的“分而治之 (divide-and-conquer)” 策略。

输入：训练集 $D=\left \{ \left ( x_{1}, y_{1}\right ),\left ( x_{2}, y_{2}\right ),...,\left ( x_{m}, y_{m}\right ) \right \};\\$

属性集 $A=\left \{ a_{1}, a_{2},..., a_{d}\right \}$

过程：

定义函数TreeGenerate (D, A)：

生成节点node；

if D中样本全部属于同一个类别C then

将node标记为C类叶节点；return

end if

if A = $\varnothing$ or D中样本在A上取值相同 then

将node标记为叶节点，其类别标记为D中样本数最多的类；return

end if

从A中选择最优划分属性 $a^{\ast }$ ； # 这一步是十分关键，那么如何选择最优划分属性？参见4.2

for $a^{\ast }$ 的每一个取值 $a_{\ast }^{v}$ do

为node生成一个分支；令 $D_{v}$ 表示D中在 $a^{\ast }$ 上取值为 $a_{\ast }^{v}$ 的样本子集；

if $D_{v}$ 为空 then

将分支结点标记为叶节点，其类别标记为 D 中样本最多的类；return

else

以 TreeGenerator ( $D_{v}$ , A \ { $a^{\ast }$ }) 为分支结点

end if

end for

输出：以node为根结点的一棵决策树

决策树的生成过程是一个递归过程。过程中碰到以下三种情形，则进行递归：

当前结点包含的样本全部属于同一类别，无需划分；
当前属性集为空，或所有样本在所有属性上取值相同，无法划分；
当前结点包含的样本集合为空，不能划分

4.2 划分选择

我们希望决策树的分支结点包含的样本尽可能属于同一个类别，即结点的纯度越高越好。

4.2.1 信息增益

信息熵 (information entropy)&#x

最低0.47元/天解锁文章

wayaya112

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
【机器学习-西瓜书】第4章-决策树

4.1 导入一棵决策树包含一个根节点、若干个内部节点（对应于属性测试）和叶节点（对应于决策结果）；从根节点到每个叶节点的路径对应了一个判定测试序列。决策树学习的目的是产生一颗泛化能力强的决策树，基本流程遵循简单且直观的“分而治之 (divide-and-conquer)” 策略。输入：训练集属性集过程：定义函数TreeGenerate (D, A)：生成节点node； if D中样本全部属于同一个类别C th...
复制链接

扫一扫