基本思想
决策树是一种树形分类算法,首先根据样本集构造树形结构,其中树的每个非叶节点是一个特征,每个叶子节点是类别标签。有了这颗树后,对于给定样本x,就可以从树的根节点开始,根据其每个特征值选择不同分支,直到叶节点得到类别标签。
决策树构造思想
构造树的过程也就是根据特征值的不同组合将所有样本划分成不同组的过程,所以每个节点该选什么特征是核心问题。有以下几个概念:
熵:衡量一个系统的无序程度,即不确定性大小。值越大表明越混乱。定义为信息的期望值,熵的算法是计算所有类别所有可能值包含的信息期望值,数学表达为:
H=−Σni=1p(x