决策树是一种机器学习的方法
决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。
从根节点开始一步步走到叶子节点(决策)
所有数据最终都会落到叶子节点,既可以做分类也可以做回归
- 根节点
- 非叶子节点与分支
- 叶子节点(最终的决策结果)
这里通过一个简单的例子来说明决策树的构成思路:
给出如下的一组数据,一共有十个样本(学生数量),每个样本有分数,出勤率,回答问题次数,作业提交率四个属性,最后判断这些学生是否是好学生。最后一列给出了人工分类结果。
然后用这一组附带分类结果的样本可以训练出多种多样的决策树,这里为了简化过程,我们假设决策树为二叉树,且类似于下图:
决策树的训练与测试
- 训练阶段:从给定的训练集构造出来一颗树(从根节点开始选择特征)
- 测试阶段:根据构造出来的树模型从根节点开始用测试集测试
- 难点在于如何构造一