树模型从决策树到RF再到XGB_xgb模型与rf模型-CSDN博客

本文链接：https://blog.csdn.net/weixin_43099835/article/details/108743173

本文介绍了决策树的基础，包括ID3、C4.5和CART算法，以及过拟合的原因和解决办法。接着探讨了随机森林的并行训练和投票机制，以及GBDT的提升方法和残差损失。最后讲解了XGBoost的优化特性，如正则化、并行处理和缺失值处理。通过对这些模型的理解，有助于掌握树模型的运用和提升。

摘要由CSDN通过智能技术生成

1.决策树的理解：
模型的不确定性降低的越快越好
主要是ID3算法，C4.5算法和CART算法，其中ID3算法的评价指标是信息增益，C4.5算法的评价指标是信息增益率，CART算法的评价指标是基尼系数。
CART是一棵二叉树，对分类和回归都适用，对于回归树用平方误差最小化，对分类树用基尼指数进行特征选择。分类时和ID3、C4.5类似；回归时会遍历变量j，对固定的切分变量扫描切分点s，计算MSE，选择使得MSE最小的（j，s）对。

CART之所以使用Gini指数是因为熵需要计算log，速度较慢

2.信息增益与信息增益率
经验熵与经验条件熵之差即为信息增益
缺点对那些特征的取值比较多的特征有所偏好
所以加入特征A 的纯度，如果A只含有少量的取值的话，那么A的纯度就比较高
3.决策树出现过拟合的原因及其解决办法？
对训练数据预测效果很好，但是测试数据预测效果较差的现象称为过拟合。
原因：
超参数剪枝、噪声、维度
解决：
K折、正则化、剪枝
4.决策树与逻辑回归的区别？
对于拥有缺失值的数据，决策树可以应对，而逻辑回归需要挖掘人员预先对缺失数据进行处理；
逻辑回归对数据整体结构的分析优于决策树，而决策树对局部结构的分析优于逻辑回归；（决策树由于采用分割的方法，所以能够深入数据内部，但同时失去了对全局的把握。一个分层一旦形成，它和别的层面或节点的关系就被