机器学习算法拾遗：（二）决策树（ID3, C4.5, CART）_c4.5处理连续属性取特征值的中点-CSDN博客

本文链接：https://blog.csdn.net/qq_38358305/article/details/88974712

补充：

6. ID3和C4.5有什么区别？

Ans：①ID3采用信息熵的增益作为切分依据，倾向于选取特征值较多的属性进行划分；C4.5采用信息熵的增益比作为切分依据，对较少特征数目的属性有所偏好。

7.请谈一谈决策树剪枝有哪些方法？

Ans：剪枝的作用是为了防止决策树过拟合，有两种思路：预剪枝(Pre-Pruning)和后剪枝(Post-Pruning)
①预剪枝——指在构造决策树的同时进行剪枝。在创建分支的过程中，为了避免过拟合，可以设定一个阈值，熵减少小于阈值时，则停止继续创建分支。实际效果并不好
②后剪枝——指在决策树构建完成之后回溯，进行剪枝。对拥有相同父节点的一组节点进行检查，判断如果将其合并，熵增加量是否小于某一阈值？是，则合并为一个节点，其中包含了所有可能的结果。后剪枝是删除一些子树，然后用叶子节点代替。此叶子节点的类别通过多数原则确定——用子树中大多数训练样本所属的类别来标识。算法包括Reduced-Error Pruning、Pessimistic Error Pruning(悲观剪枝)
③预剪枝可能产生欠拟合的风险，后剪枝由于需要先生成完整的树，再自底向上进行剪枝，因此花费的时间要久的多。

8. 决策树怎么处理连续值和缺失值？

Ans：①连续值处理——采用连续属性离散化技术，最简答的方法是采用二分法进行处理(C4.5采用的机制)。对特征值进行升序排序，取两个特征值之间的中点作为可能的分裂点，以此离散化。
②缺失值处理——包含两个待解决的问题：1. 如何在属性值缺失的情况下，进行划分属性的选择？显然，仅课根据在各属性上没有缺失值的样本来选择。2.给定划分属性，若样本在该属性上的值缺失，如何对样本进行划分？若样本x在属性A上的取值已知，则将x划入与其取值对应的子节点，且样本权重在子节点中保持为Wx；若样本x在属性A上取值未知，则将x划入所有子节点，且样本权重与属性值Av对应的子节点中，调整为Rv*Wx。直观上，就是让同一个样本以不同的概率划入到不同的子节点去。