（系列笔记）6.决策树（上）

最新推荐文章于 2019-07-21 11:44:20 发布

WNotSyer

最新推荐文章于 2019-07-21 11:44:20 发布

阅读量232

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/qq_41909317/article/details/88383948

版权

本文详细介绍了决策树这一机器学习模型，包括直观理解、构建过程，以及三种常用算法ID3、C4.5和CART。ID3以信息增益为度量，C4.5通过信息增益率避免过多取值特征的影响，而CART使用Gini系数选择最优切分点，并构建严格二叉树。

摘要由CSDN通过智能技术生成

决策树——既能分类又能回归的模型

1、决策树

决策树上一中非常基础又常见的机器学习模型。一颗决策树（Decision Tree）是一个树结构（可以是二叉树或非二叉树），每个非叶节点对应一个特征，该节点的每个分支代表这个特征的一个取值，而每个叶节点存放一个类别或一个回归函数。

使用决策树进行决策的过程就是从根节点开始的，提取出待分类项中相应的特征，按照其值选择输出分支，以此向下，知道达到叶子节点，将叶子节点存放的类别或者回归函数的运算结果作为输出（决策）结果。
决策树的决策过程非常直观，容易被人理解，而且运算量相对小。它在机器学习当中非常重要。如果要列举“十大机器学习模型”，决策树当列前三。

直观理解

在这里插入图片描述
这棵树的作用，是对要不要接受一个offer做出判断：
此树一共有7个节点，其中4个叶子节点和3个非叶子节点。它是一棵分类树，每个叶子节点对应一个类别。

那么有4个叶子节点，并不是代表有4个类别，从图中可看出，一共2个类别：accept offer（接受）和dicline offer（拒绝）。

理论上讲，一棵分类树有n个叶子节点时（n>1，只有1个结果也就不用分类了），可能对应2~n个类别，不同判断路径可能得到相同的结果。如图例：拿到一个offer后，要判断3个条件：1、年薪；2、通勤时间；3、免费咖啡。这三个条件根据重要程度，越重要的越靠近根节点，即年薪低于5W美元，直接pass…以此类推。

这三个非叶子节点（含有根节点），统称决策节点，每个节点对应一个条件判断，而这个条件判断的条件，我们叫做特征。图例有3个特征。

当我们用这棵树来判断一个offer的时候，我们就需要从这个offer提取这些特征（年薪，通勤时间，是否有免费咖啡），然后将特征值输入决策树，然后按照根节点向下进行筛选，达到的叶子所对应的类别就是预测结果。