XGBoost是一个优化的分布式梯度提升库,旨在高效,灵活和便携。它在梯度提升框架下实现机器学习算法。XGBoost提供了一个并行树提升(也称为GBDT,GBM),可以快速准确地解决许多数据科学问题。
XGBOOST由若干个弱学习器构建成强学习器,在python的XGBOOST库中,其默认会生成一百棵树,通过这一百棵树进行组合,组合的结果就是强学习器
举下图的一个简单的例子,就能够明白XGBOOST拟合的过程
序号 | 城市 | Num |
1 | 北京 | 100 |
2 | 上海 | 500 |
3 | 广州 | 1100 |
4 | 香港 | 1200 |
以这个简单的数据集为例
假设XGBOOST生成了三棵树,将这三棵树进行组合,就会组合出一个公式,这个公式就是最终拟合出的强学习器。对于更加复杂的数据,会拟合出更加复杂的树以及更加复杂的强学习器