面试题目的收集分别参考以下博客,但是回答的形式可能有所不同
https://blog.csdn.net/weixin_38753230/article/details/100571499
它是极度的gradient boostIng算法,基于可以二阶导的任何损失函数的前向分布式的学习算法,可以用于分类和回归。基于GBDT和正则化的思想,加入特征属性的加权分割点法,并行处理,缺失值处理以及硬件的优化过程,使其算法在泛化能力和精确度上有了较好的平衡,并且运算时间有了大幅度提升
(1) 初值的设置:XGBoost初值是任何常数,无论回归还是分类默认0.5,GBDT是使得所有数据损失函数和最小的值,回归和分类的初值不同
(2)目标函数:XGBoost只要是可以进行二次泰勒展开的损失函数都可以,另外在基本损失函数的基础上增加了对叶子节点数目的L1正则项和对预测结果的L2正则项;GBDT一般回归时满足一次导就可以,分类一般要满足二次导
(3)基学习器:XGBoost有其自己独特的建立基学习器的方法,建立及学习的过程是以最小化目标函数为指导思路,利用similarityScore的指标取计算gain从而确定最优的基学习器的过程,这个过程支持列抽样,和随即森林类似。GBDT的基学习器就是CART决策树,也就是利用GINI系数或MSE获取最优子树
(4&#x