什么是XGBoost?
XGBoost是使用梯度提升框架的基于决策树的集成机器学习算法。 在涉及非结构化数据(图像,文本等)的预测问题中,人工神经网络往往胜过所有其他算法或框架。 但是,当涉及中小型结构化/表格数据时,基于决策树的算法目前被认为是同类中最好的。
XGBoost:它被称为“极端梯度增强”! 它是软件和硬件优化技术的完美结合,可以在最短的时间内使用较少的计算资源来获得优异的结果。
XGBoost为什么表现这么好?
XGBoost和梯度提升机(GBM)都是集成树方法,它们采用梯度下降架构来增强弱学习者(通常为CART)的原理。 但是,XGBoost通过系统优化和算法增强对基础GBM框架进行了改进。
算法增强:
正则化:它通过LASSO(L1)和Ridge(L2)正则化惩罚更复杂的模型,以防止过度拟合。
稀疏意识:XGBoost会根据训练损失自动“学习”最佳缺失值,从而自然接受输入的稀疏功能,并更有效地处理数据中不同类型的稀疏模式。
加权分位数草图:XGBoost使用分布式加权分位数草图算法来有效地找到加权数据集之间的最佳分割点。
交叉验证:该算法在每次迭代时都带有内置的交叉验证方法,从而无需显式编程此搜索并指定单次运行所需的增强迭代的确切次数。