1 分为回归树和分类树
将决策树转为if-then 规则:
- 由决策树的根节点到叶节点的每一条路径构建一条规则。
- 路径上中间节点的特征对应着规则的条件,也就是叶节点的类标签对应着规则的结论
2 决策树的构建
分为3个部分:特征选择,决策树的生成和决策树的剪枝
2.1 特征选择:选取对训练数据有分类能力的特征,衡量的指标为熵,增益率,基尼指数
2.1.1 熵 表示随机变量不确定性的度量,为信息的期望值:
越小,D的不纯度越低。
2.1.2 信息增益
父节点的信息熵与其下所有子节点总信息熵之差
公式:
2.2 递归构建决策树
ID3 算法,C4.5, CART
ID3 算法的具体方法: 从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征的不同取值建立子节点,再对子节点递归地调用以上方法。构建决策树直到所有特征的信息增益均很小或没有特征可以选择为止,最后得到一个决策树。
递归结束条件:程序遍历所有的特征列或者每个分支下所有实例都有相同的分类,如果所有实例具有相同的分类,则得到一个叶节点,任何到达叶节点的数据必然属于叶节点的分类,即叶节点里面必须是标签。