决策树demo

最新推荐文章于 2023-03-12 22:09:12 发布

起飞的木木

最新推荐文章于 2023-03-12 22:09:12 发布

阅读量772

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/qifeidemumu/article/details/88955160

版权

本文介绍了决策树的原理和优缺点，包括ID3、C4.5和CART算法，强调其直观、无需预处理、处理离散和连续值的能力。同时，讨论了决策树的过拟合问题和解决方案，如剪枝、集成学习。最后，探讨了决策树的参数选择，并以实例说明如何调整特征选择和叶子节点限制。

摘要由CSDN通过智能技术生成

算法支持模型树结构   特征选择连续值处理   缺失值处理剪枝
ID3 分类多叉树   信息增益不支持不支持不支持
C4.5 分类多叉树   信息增益比支持支持支持
CART 分类，回归二叉树   基尼系数，均方差   支持支持支持
决策树的优点
1）简单直观，生成的决策树很直观。
2）基本不需要预处理，不需要提前归一化，处理缺失值。
3）使用决策树预测的代价是O(log2m)。 m为样本数。
4）既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。
5）可以处理多维度输出的分类问题。
6）相比于神经网络之类的黑盒分类模型，决策树在逻辑上可以得到很好的解释
7）可以交叉验证的剪枝来选择模型，从而提高泛化能力。
8） 对于异常点的容错能力好，健壮性高。

决策树的局限性
1）决策树算法非常容易过拟合，导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。
2）决策树会因为样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。
3）寻找最优的决策树是一个NP难的问题，我们一般是通过启发式方法，容易陷入局部最优。可以通过集成学习之类的方法来改善。
4）有些比较复杂的关系，决策树很难学习，比如异或。这个就没有办法了，一般这种关系可以换神经网络分类方法来解决。
5）如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重