综述
- 一种非常常用的机器学习算法,属于监督学习,可以用于分类和回归。
- 每个内部节点表示在一个属性上的测试,每个分支代表当前测试的输出。每个叶节点代表类别。
- 根据属性的值分类。得到的新节点是根据属性分后的实例
- 当新节点内,所有的实例都是同一个标记的时候,停止分类
- 自顶向下,基本思想是以信息熵为度量,构造一棵熵值下降最快的树,直到熵的值最终为0。
- 可能是最常使用的数据挖掘算法,主要有ID3,X4.5,CART
- 可能会过度预测,看情况进行剪枝
算法构造
流程图的树结构,对属性测试,判断,然后输出。
判断生成的子节点是否满足停止分割的条件。
节点:属性
分支:根据属性的值的情况,决定分支的个数。
算法流程
决策树本质是个递归过程。判属性–>创分支–>选属性–>递归结束条件。
用伪代码总结执行步骤如下
伪代码:
if 符合结束条件 return 类标签
else
计算/寻找最适合的特征
划分分支
创建新子集
for 每个子集
调用本段代码并增加返回结果到分直接点中
<