intro:
最近在公司做项目,用xgboost、lightgbm分析特征重要性,做个baseline,正好写下对xgboost和lightgbm最新的理解
Chap01:
正好看到一道面试题:
我面试候选人时必问的一个问题
- GBDT中的梯度是什么对什么的梯度?
- 给一个有m个样本,n维特征的数据集,如果用LR算法,那么梯度是几维?
- 同样的m*n数据集,如果用GBDT,那么梯度是几维?m维?n维?m*n维?或者是与树的深度有关?或者与树的叶子节点的个数有关?
就这样一个简单的问题,面试过2位数的候选人了,回答正确的不到5个。回答错误的人中,包括一个前阿里P7,和一个kaggle比赛中多次进入top 5%的“竞赛达人”。
作者:石塔西
链接:https://www.zhihu.com/question/62482926/answer/526988250
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
Chap02:
xgboost 优化目标函数:
loss function满足泰勒展开的条件