第四章 决策树
4.1 基本流程 决策树是一种递归地将数据集分成更小子集的分类和回归模型。基本流程包括:
- 选择最佳划分属性:通过信息增益、增益率或基尼指数等指标选择最优划分属性。
- 划分数据集:根据选定的属性将数据集划分成若干子集。
- 递归构建子树:对子集重复上述过程,直到满足停止条件,如所有样本属于同一类别或无法继续划分。
- 生成决策节点和叶节点:生成包含属性测试条件的决策节点和表示类别的叶节点。
4.2 划分选择 选择划分属性的主要标准有:
- 信息增益:基于熵的减少量。
- 增益率:信息增益与属性固有值的比值。
- 基尼指数:用于评估数据集的不纯度。
4.3 剪枝处理 剪枝是减少决策树过拟合的一种技术。包括:
- 预剪枝:在生成决策树过程中提前停止划分。
- 后剪枝:生成完全决策树后,移除不必要的分支。
4.4 连续与缺失值 处理连续属性和缺失值的策略:
- 连续属性:将连续值离散化,通常采用二分法。
- 缺失值:通过样本的权重或替代值进行处理。
4.5 多变量决策树 多变量决策树使用多个属性的组合进行划分,提高了模型的灵活性和预测性能。