问:标准的ID3算法支持剪枝操作。
答:错误。标准的ID3算法不支持剪枝操作,该算法通过递归地构建决策树,在每个节点上使用信息增益作为判定条件进行特征选择,直到遍历完所有特征或者将数据集划分为同一类别的样本。ID3算法容易产生过拟合现象。
剪枝目的:
解决决策树过拟合问题
决策树过拟合:
根据ID3与C4.5的算法我们可以知道,决策树依据信息增益或信息增益比在不断的迭代生产新的子节点,直到不能继续下去为止
这个过程中,算法只考虑当前节点的特征选择与数据的划分,并无对树形结构复杂度的考虑,然后生成一颗非常复杂的树,
这种树可能会得出对训练数据分类非常准确,却对测试数据不太准确的决策树,这种情况称为过拟合
剪枝算法实现:
通过对上述复杂的树进行整体剪枝处理,可以减少复杂度,平衡模型对训练集的预测误差与模型的复杂度,达到两者同时最小