决策树是一种类似于流程图的树形结构,自上而下的给出分类规则。
决策树方法分为决策树的构建和剪枝。
1.决策树的构建是指从所有的可选属性中选择最优的分裂属性(最优即把训练集分为彼此差异最大的几部分)。其中,如何选择分裂属性是关键,我们通常用信息熵来描述信息的不确定性,用信息增益来描述信息熵减少的程度。
x属性在y数据中期望信息量:
信息增益:
gain(p)=info(T) - info(H)
2.决策树的剪枝
2.1先剪枝:在建立决策树的过程中通过提前停止生成分枝对决策树进行剪枝。
例:某分枝对应的样本虽然不完全属于同一类别,但仍为该分枝的一个叶子节点,即需要剪枝。
2.2后剪枝:构建一个决策树后,通过比较剪枝与否的分类错误率来决定是否剪枝。
例:对于树中的每个非叶子节点,计算该分枝被剪枝后的新书所对应的分类错误率;同时根据每个分枝的分类错误率及每个分枝的权重计算该节点不被剪枝时的分类错误率,比较两者的大小。