目录
一、决策树介绍
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
决策树是一种十分常用的分类方法。它是一种监督学习。
伪代码实现:
- 将数据集的最佳属性放在树根上。
- 将训练集拆分为子集。子集的创建方式应确保每个子集包含具有相同属性值的数据。
- 对每个子集重复步骤1和步骤2,直到树的所有分支中找到叶节点。
创建决策树时的假设:
- 开始时,整个训练集被视为根。
- 特征值最好是离散的。如果值是连续的,则在构建模型之前对其进行离散化。
- 记录是基于属性值递归分布的。
- 将属性作为树的根或内部节点的顺序是