Random Forest & GBDT & XGBOOST & LightGBM面试问题整理

本文整理了随机森林(Random Forest)、梯度提升决策树(GBDT)和XGBOOST在特征重要性评估方面的面试问题,包括袋外数据错误率评估、Gini系数评价指标以及模型的优缺点。随机森林通过袋外数据错误率和Gini系数来衡量特征重要性;GBDT同样使用Gini系数;XGBOOST的内容待续。
摘要由CSDN通过智能技术生成

一.知识点

二.特征重要性评估

    基于树的集成算法有一个很好的特性,就是模型训练结束后可以输出模型所使用的特征的相对重要性,便于理解哪些因素是对预测有关键影响,有效筛选特征。


Random Forest

  • 袋外数据错误率评估

    由于RF采用bootstrapping有放回采样, 一个样本不被采样到的概率为

    limm(11m)m=1e0.368 lim m → ∞ ( 1 − 1 m ) m = 1 e ≈ 0.368
    因此约有 13 1 3 样本可用于”包外估计”(out-of-bag estimate, OOB)。

    袋外数据错误率定义为:袋外数据自变量值发生轻微扰动后的分类正确率与扰动前分类正确率的平均减少量。

  • Gini系数评价指标

    特征 xj x j 在单棵树的变量重要性(variable importance measures)定义为:特征在所有非叶节点分裂时加权不纯度(weighted impurity)的减少量

    假设有数据集有

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值