机器学习模型——树模型常见面试问题

本文探讨了bagging与boosting的区别,重点分析了boosting的权重调整和弱分类器组合策略。同时,对比了GBDT与随机森林在生成、权重、集成策略、异常值处理和性能优化等方面的差异,并进一步讲解了GBDT与XGBoost在损失函数、优化方法和正则化上的不同。
摘要由CSDN通过智能技术生成

一、bagging和boosting的区别

1.样本选择:
  bagging采用bootstraping的方式进行随机有放回的取样,各轮训练集之间是独立的;
  boosting每轮训练的样本是固定的,改变的是样本的权重。
2.样本权重
  bagging采取的是均匀取样,每个样本的权重相同;
  boosting根据错误率调整样本权重,错误率越大的样本权重越大。
3.预测函数
  bagging所有预测函数的权重相同;
  boosting中误差越小的预测函数权重越大。
4.并行计算
  bagging的各个预测函数可以并行生成;
  boosting的各个预测函数必须按照顺序迭代生成。

二、boosting的两个核心问题

1.在每一轮如何改变训练数据的权值或概率分布?
  通过提高在前一轮被错误分类的样本权重,减小在前一轮被正确分类的样本权重,使错误分类的样本在后续得到更多的关注。
2.通过什么方式来组合弱分类器?
  通过加法模型将弱分类器进行线性组合,比如adaboost通过加权多数表决的方式,即正确率越高的分类器在决策中的权重越大;提升决策树通过拟合残差的方式逐步减小残差,将每一步生成的模型叠加得到最终模型。

三、集成学习中的投票组合策略

1.相对多数投票
  n个分类器的预测结果少数服从多数;
2.绝对多数投票
  n个分类器的预测结果不仅要少数服从多数,还要求多数票要过半,否则会拒绝预测;
3.加权投票

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值