集成算法梳理——XGBoost

最新推荐文章于 2022-11-15 22:39:33 发布

JN_rainbow

最新推荐文章于 2022-11-15 22:39:33 发布

阅读量562

点赞数

分类专栏：机器学习文章标签： XGBoost

本文链接：https://blog.csdn.net/JN_rainbow/article/details/89194166

版权

机器学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

文章目录

算法原理
损失函数
分裂结点算法
正则化
对缺失值处理
优缺点
- 优点
- 缺点
应用场景
xgb API

算法原理

算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值.

损失函数

对于分类问题，常用的损失函数为logloss.

对于回归问题，常用的损失函数为MSE、MAE.

分裂结点算法

exact greedy algorithm—贪心算法获取最优切分点
approximate algorithm— 近似算法，提出了候选分割点概念，先通过直方图算法获得候选分割点的分布情况，然后根据候选分割点将连续的特征信息映射到不同的buckets中，并统计汇总信息
Weighted Quantile Sketch—分布式加权直方图算法

正则化

损失函数中加入了正则项
样本采样和列采样

对缺失值处理

xgboost处理缺失值的方法和其他树模型不同。xgboost把缺失值当做稀疏矩阵来对待，本身在节点分裂时不考虑缺失值的数值，但确定分裂的特征后，缺失值数据处理策略是落在哪个子结点得分高，就放到哪里。如果训练中没有数据缺失，预测时出现了数据缺失，那么默认被分类到右子树。

优缺点

优点

xgBoosting支持线性分类器，相当于引入L1和L2正则化项的逻辑回归（分类问题）和线性回归（回归问题）.
xgBoosting对代价函数做了二阶Talor展开，引入了一阶导数和二阶导数.
当样本存在缺失值是，xgBoosting能自动学习分裂方向.
xgBoosting借鉴RF的做法，支持列抽样，这样不仅能防止过拟合，还能降低计算.
xgBoosting的代价函数引入正则化项，控制了模型的复杂度，正则化项包含全部叶子节点的个数，每个叶子节点输出的score的L2模的平方和。从贝叶斯方差角度考虑，正则项降低了模型的方差，防止模型过拟合.
xgBoosting在每次迭代之后，为叶子结点分配学习速率，降低每棵树的权重，减少每棵树的影响，为后面提供更好的学习空间.
xgBoosting工具支持并行,但并不是tree粒度上的，而是特征粒度，决策树最耗时的步骤是对特征的值排序，xgBoosting在迭代之前，先进行预排序，存为block结构，每次迭代，重复使用该结构，降低了模型的计算；block结构也为模型提供了并行可能，在进行结点的分裂时，计算每个特征的增益，选增益最大的特征进行下一步分裂，那么各个特征的增益可以开多线程进行.
可并行的近似直方图算法，树结点在进行分裂时，需要计算每个节点的增益，若数据量较大，对所有节点的特征进行排序，遍历的得到最优分割点，这种贪心法异常耗时，这时引进近似直方图算法，用于生成高效的分割点，即用分裂后的某种值减去分裂前的某种值，获得增益，为了限制树的增长，引入阈值，当增益大于阈值时，进行分裂.

缺点

xgBoosting采用预排序，在迭代之前，对结点的特征做预排序，遍历选择最优分割点，数据量大时，贪心法耗时，LightGBM方法采用histogram算法，占用的内存低，数据分割的复杂度更低.
xgBoosting采用level-wise生成决策树，同时分裂同一层的叶子，从而进行多线程优化，不容易过拟合，但很多叶子节点的分裂增益较低，没必要进行跟进一步的分裂，这就带来了不必要的开销；LightGBM采用深度优化，leaf-wise生长策略，每次从当前叶子中选择增益最大的结点进行分裂，循环迭代，但会生长出更深的决策树，产生过拟合，因此引入了一个阈值进行限制，防止过拟合.

应用场景

回归问题和分类问题都可，且能够处理有缺失值的数据.

xgb API

参数	类型	默认值	作用
loss	{‘deviance’, ‘exponential’}	‘deviance’	损失函数
learning_rate	float	0.1	学习率,即每个学习器的权重
n_estimators	int	100	树的棵树
criterion	str	‘friedman_mse’	分裂算法
max_depth	int or None	None	决策树最大深度
n_iter_no_change	int or None	None	早停轮数
tol	float	1e-4	早停阈值
validation_fraction	float	0.1	早停验证比例
min_samples_split	int or float	2	分裂时最小样本数
min_samples_leaf	int or float	1	叶节点最小样本数
min_weight_fraction_leaf	float	0	叶节点最小样本权重总值
max_features	int float str None	‘auto’	切分时最大的特征数量
max_leaf_nodes	int or None	None	最大叶节点个数
min_impurity_decrease	float	0.	切分点不纯度最小减少程度,若节点不纯度小于该值,则被移除
random_state	int or None	None	随机种子

JN_rainbow

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
集成算法梳理——XGBoost

文章目录算法原理损失函数分裂结点算法正则化对缺失值处理优缺点优点缺点应用场景xgb API算法原理算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就...
复制链接

扫一扫