树模型从决策树到RF再到XGB

本文介绍了决策树的基础,包括ID3、C4.5和CART算法,以及过拟合的原因和解决办法。接着探讨了随机森林的并行训练和投票机制,以及GBDT的提升方法和残差损失。最后讲解了XGBoost的优化特性,如正则化、并行处理和缺失值处理。通过对这些模型的理解,有助于掌握树模型的运用和提升。
摘要由CSDN通过智能技术生成

1.决策树的理解:
模型的不确定性降低的越快越好
主要是ID3算法,C4.5算法和CART算法,其中ID3算法的评价指标是信息增益,C4.5算法的评价指标是信息增益率,CART算法的评价指标是基尼系数。
CART是一棵二叉树,对分类和回归都适用,对于回归树用平方误差最小化,对分类树用基尼指数进行特征选择。分类时和ID3、C4.5类似;回归时会遍历变量j, 对固定的切分变量扫描切分点s,计算MSE,选择使得MSE最小的(j,s)对。

CART之所以使用Gini指数是因为熵需要计算log,速度较慢

2.信息增益与信息增益率
经验熵与经验条件熵之差即为信息增益
缺点对那些特征的取值比较多的特征有所偏好
所以加入特征A 的纯度,如果A只含有少量的取值的话,那么A的纯度就比较高
3.决策树出现过拟合的原因及其解决办法?
对训练数据预测效果很好,但是测试数据预测效果较差的现象称为过拟合。
原因:
超参数剪枝、噪声、维度
解决:
K折、正则化、剪枝
4.决策树与逻辑回归的区别?
对于拥有缺失值的数据,决策树可以应对,而逻辑回归需要挖掘人员预先对缺失数据进行处理;
逻辑回归对数据整体结构的分析优于决策树,而决策树对局部结构的分析优于逻辑回归;(决策树由于采用分割的方法,所以能够深入数据内部,但同时失去了对全局的把握。一个分层一旦形成,它和别的层面或节点的关系就被

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值