机器学习笔记 - 决策树基本算法

最新推荐文章于 2023-07-07 19:54:06 发布

volvet

最新推荐文章于 2023-07-07 19:54:06 发布

阅读量939

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/volvet/article/details/55053832

版权

机器学习专栏收录该内容

29 篇文章 1 订阅

订阅专栏

顾名思义, 决策树是基于树结构来进行决策的, 这也是人类面临决策问题时的一种很自然的处理机制. 比如, 我们对”这是好瓜吗?”这个问题进行决策时, 通常会进行一系列的判断, 先看它是什么颜色, 如果是青绿色, 再看它的根蒂是什么形态, 如果是蜷缩, 再看它敲起来是什么声音, 最终我们得到判断, 这是个好瓜。决策树的形态大致如下图所示

基本算法:

输入: 训练集 $D=\{(x_1, y_1), (x_2, y_2), ... , (x_m, y_m)\}$
属性集 $A=\{a_1, a_2, ... , a_d\}$
过程: 函数 TreeGenerate( $D, A$ )
1: 生成节点node
2: if $D$ 中样本全属于同一类别 $C$ ; then
3: 将node标记为 $C$ 类叶结点; return
4: end if
5: if $A = \emptyset$ OR $D$ 中样本在 $A$ 上取值相同； then
6: 将node标记为叶结点，其类别标记为 $D$ 中样本数最多的类； return
7: end if
8: 从 $A$ 中选择最优划分属性 $a_*$
9: for $a_*$ 的每个值 $a_*^v$ do
10: 为node 生成一个分支; 令 $D_v$ 为 $a_*$ 上取值为 $a_*^v$ 的样本子集；
11: if $D_v = \emptyset$ then
12: 将分支结点标记为叶结点，其类别标记为 $D$ 中样本数最多的类； return
13: else
14: TreeGenerate( $D_v, A \setminus \{a_*\})$ 为分支结点
15: end if
16:end for