一.基本流程
组成:
一颗决策树包含一个根结点、若干个子结点和若干个叶结点。
根结点:包含样本全集;
子结点:对应属性划分,包含划分样本;
叶结点:对应决策结果,包含决策样本。
从根结点到每个叶结点的路径:对应一个判定测试序列(系列子决策)。
策略:决策树采用分而治之策略,
算法:
决策树的生成是一个递归过程。核心是最优划分属性的选择,有三种情形导致递归返回:
(1) 当前结点包含的样本全属于同一类别,无需划分,该结点类别确定。
(2) 所有样本在所有属性值相同,或属性集为空,无法划分,该结点类别设定为所含样本最多的类别。
(3) 当前结点包含的样本集合为空,不能划分。父结点类别确定。
二.划分选择
其中涉及到信息熵。其特性为单调性,非负性,累加性。
其中有信息增益-ID3决策树,增益率-C4.5决策树,基尼指数-CART决策树。(了解不深,就不细说了。)
三.剪枝处理
预剪枝
预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。
仅有一层划分的决策树称为“决策树桩
预剪枝基于贪心策略,预划分当前结点,减少了决策树的分支。
优点:显著减少了决策树的训练时间开销和测试时间开销;
降低了过拟合的风险;
缺点:数据集可能存在当前划分验证集精度低,但后续划分显著提高的情形,无法得到最优决策树;
增加了欠拟合的风险;
后剪枝
后剪枝是先从训练集生成一颗完整的决策树,然后自底向上地非叶结点进行考察,若将该结点对应子树替换为叶结点能带来决策树泛化能力的提高,则将该子树替换为叶结点。
优点:保留了更多分支,泛化性能往往优于预剪枝决策树;
降低了欠拟合的风险;
缺点:先从训练集生成一颗完整的决策树,训练时间开销和测试时间开销比未剪枝决策树和预剪枝决策树要大得多;
连续与缺失值 多变量决策树
这两个方面也只是看了看,没有整理什么,后续补上。