XgBoost (Xtreme Gradient Boosting 极限 梯度 增强)
1.基本描述:
假设Xg-模型有 t 颗决策树数,t棵树有序串联构成整个模型,各决策树的叶子节点数为 k1,k2,...,kt,
对于决策树 Ti, 叶子节点数为 ki, 设这颗数每个叶子节点上的权值为:wj_i (i∈[0,t]为决策树下标,j∈[0,ki]为叶子节点下标)
该模型在 对一个样本进行 分类/回归 时,这个样本数据点 在树的根节点输入, 在树的某一叶子节点输出
2.模型构造:
=》Xg-模型有 t 颗决策树数,假设该模型由0颗数 逐一新增至 t颗树的 数学模型变化过程
当 t = 0 时: y_0 = F0(x) = f0(x) = 0
t = 1 时: y_1 = F1(x) = F0(x) + f1(x) = f1(x)
t = 2 时: y_2 = F2(x) = F1(x) + f2(x) = f1(x) + f2(x)
... ...
t = t 时: y_t = Ft(x) = Ft-1(x) + ft(x)
其中当t = i时,即Xg-模型 为 i颗决策树构成时:
fi(x) 为第i颗 (最后一棵) 决策树的 数学模型 (函数)
y_i 为样本数据x 经过整个xg模型的分类输出值
Fi(x) 为整个Xgboost的 数学模型 (函数)在 t-1 颗决策树构成的 数学模型为 Ft_1(x) 的Xg-模型上,(末尾)新增一颗 数学模型为ft(x)的决策树
新构成的Xg-模型的 数学模型为:y = Ft(x) = Ft-1(x) + ft(x) 【2.2】
3.结构分析:
第t棵决策树,各个叶子节点的权值为 w1,w2,...,wk,树的数学模型为:ft(x) = wq(x)
wq 表示, 当这棵决策树的输入为x时, 样本被分类到下标为q(q∈[1,k])的叶子节点上对应的 权值 (向量)
若样本数据维数为d,对于样本 X(x_1, x_2, ..., x_d), 权值 wq(wq_1,wq_2,...,wq_d)有
ft(x) = wq(x) , w ∈ Rt , q: Rd → {1,2,...,T} 【2.3】