一、 问题描述
对于具有多个属性的分类问题,我们需要找到一个合适的分类方法,这里,我们尝试采用符合人类决策过程的决策树学习算法,用树形判断的方式对数据逐层分类。
二、 数据准备
本次报告测试数据采取《机器学习实战》中测试数据集,无缺省异常值。四维数据基本格式展示如下:
三、 模型原理与建立
决策树是一种基于信息论的 以树形 结构 展示的 分类算法 ,通过找出具有最大 信息量的划分特征 ,对数据进行逐一划分 ,对数据进行逐一划分 ,各种决策树的主函数大同小异,本质上是个递归函数, 上是个递归函数上是个递归函数, 函数主要功能是根据某种规则生长出决策树的各个分支节点, 并根据终止条件结束算法 。
其中,本次实现的决策树停止规则如下 :
1. 当前节点全部属于同一类别无需划分
2. 当前所有样本在所有属性上取值相同无法划分
具体实现如下:
而对信息量的确定主要是基于论中熵义 :