决策树基于时间的各个判断条件,由各个节点组成,类似一颗树从树的顶端,然后分支,再分支,每个节点由响的因素组成
决策树有两个阶段,构造和剪枝
构造: 构造的过程就是选择什么属性作为节点构造,通常有三种节点
1. 根节点:就是树的最顶端,最开始那个节点 (选择哪些属性作为根节点)
2. 内部节点: 就是树中间的那些节点 (选择哪些属性作为子节点)
3. 叶节点: 就是树最底部的节点,也就是决策的结果(什么时候停止并得到目标状态,叶节点)
剪枝: 实现不需要太多的判断,同样可以得到不错的结果,防止过拟合现象发生
过拟合百度百科直观了解一下(https://baike.baidu.com/item/%E8%BF%87%E6%8B%9F%E5%90%88/3359778)
简单介绍就是为了得到一致假设而使假设变得过度严格称为过拟合。
预剪枝是在决策树构造前进行剪枝,在构造过程中对节点进行评估,如果某个节点的划分,在验证集中不能带来准确性的提升,划分则无意义当成叶节点不做划分
后剪枝是在生成决策树后再进行剪枝,通常会从决策树的叶节点开始,逐层向上对每个节点进行评估,减掉与保留差准确性差别不大,或者减掉改节点字数,能在验证集中带来准确性提升,就可以剪枝。
信息熵: 表示了信息的不确定度,下面是计算公式,信息熵越大纯度越低
当不确定性越大,包含的信息量就越大,信息熵就越高