简述:
GBDT是以CART为基分类器的加法结构树模型,其每个基分类器的输入由上一个分类器的残差作为输入,通过不断减少残差达到训练的目的。其中残差由损失函数的负梯度在当前模型的值进行估算。
树停止生长的条件:
1、划分节点最少的样本数;
2、树的最大深度;
3、最多的叶子节点数;
4、loss满足约束条件等。
节点信息保存:
中间节点保存特征分割的阈值;叶子节点作为类别概率。
如何进行定义特征权重?
通过计算当前特征的基尼指数与所有特征的比例作为权重。
GBDT哪些部分可以并行?
计算样本的负梯度时;
查找样本的负梯度时;
查找特征和分割最佳分割点时;
最后结果累加的时候等。
GBDT如何加速训练:
对特征进行预排序,并存储为block结构,可以对特征进行重复利用,并利用多线程快速查找,加速查找特征。
GBDT相对于逻辑回归的优缺点:
GBDT相对于逻辑回归具有树模型的优点,也就是抗噪声能力强,对异常点不敏感,鲁棒性强;
LR则对于线性问题上更擅长,而GBDT则不擅长线性问题;
同时GBDT对于缺失值有很好的处理方法,而LR没有。