《机器学习实战》读书笔记第三章决策树（part 2）

最新推荐文章于 2023-08-08 20:25:13 发布

小个征一点点

最新推荐文章于 2023-08-08 20:25:13 发布

阅读量556

点赞数

本文链接：https://blog.csdn.net/sinat_24553871/article/details/42492541

版权

part 2 树、字典、递归

上一篇讲解了决策树算法的数学理论基础，接下来讲讲具体是怎么实现的。

首先，决策树是以一棵树的形式进行存储的。树是一种数据结构，它是若干结点的集合，是由唯一的根结点和若干互不相交的子树组成的（翻开《数据结构高分笔记》，念）。就像这样：

目前我们只要了解：最上面那个是根结点，紧跟在每个结点下面的结点是它的孩子结点，最下面那些没有孩子结点的结点是叶子结点就可以了。

既然树是结点的集合，那么首先要了解的是每个结点的结构。在树的链式存储结构中，每个结点用一个链结点存储。比如C语言中二叉树结点的定义（不知道没关系，这不是重点）：

（不要觉得把代码写在纸上是闲得蛋疼，你考试和面试的时候都要在纸上写的，平时不找手感，到时候你就知道什么是拙计）

放这个图是为了说明，树的一个结点需要包含两部分信息：一部分是结点本身的信息，另一部分是要找到它的下一个（或几个）孩子结点在哪里？这样，在有了根结点之后，我们就可以遍历整棵树，来得到树中每个结点的信息。

那么在python中，可以怎样存储一棵树呢？幸而我们不用像C语言那样写冗长的定义，python为我们准备好了一种数据结构：字典，非常适合用来构造一棵树~

我们在第二章里已经见识过字典了。简而言之就是由键值对构成的集合，像这样：{key1：value1，key2：value2，key3：value3，...}。由于键和值之间建立了映射（相当于c语言里的指针），可以通过字典的嵌套来构造一棵树。比如：

{'no surfacing': {0: 'no', 1: {'flippers': {0: {'head': {0: 'no', 1: 'yes'}}, 1: 'no'}}}}

用matplotlib画出来就是这样：

回到决策树。刚才画的那个就是一棵决策树啦，它的根结点是我们选择的第一个要进行分类的特征，分成的几类（如果可再分的话）需要进行下一次分类，那么根结点的孩子结点就是第二次分类时选择的特征；然后这个过程在以孩子结点为根的子树上循环往复，直到得到不可再分的样本集为止。叶子结点储存的是最终不可再分的样本集的标签。

书上那个给鱼分类的sample太不接地气了，接下来，我再给大家for一个sample：