XGBoost——机器学习（理论+图解+python代码）

最新推荐文章于 2024-09-10 16:03:59 发布

云南省高校数据化运营管理工程研究中心

最新推荐文章于 2024-09-10 16:03:59 发布

阅读量2k

点赞数 1

分类专栏：冯贤鹤文章标签：机器学习

本文链接：https://blog.csdn.net/m0_37788308/article/details/81232082

版权

本文详细介绍了XGBoost算法，从集成算法思想到XGBoost的基本原理，阐述了如何通过多棵树提升模型效果，并探讨了XGBoost的目标函数和正则化。还提供了在MacOS上安装XGBoost的步骤，以及用Python实现XGBoost算法进行二分类任务的案例，展示了其在实际应用中的预测准确率。

摘要由CSDN通过智能技术生成

前言

在竞赛题中经常会用到XGBoost算法，用这个算法通常会使我们模型的准确率有一个较大的提升。既然它效果这么好，那么它从头到尾做了一件什么事呢？以及它是怎么样去做的呢？

我们先来直观的理解一下什么是XGBoost。XGBoost算法是和决策树算法联系到一起的。决策树算法在我的另一篇博客中讲过了：https://blog.csdn.net/huacha__/article/details/80919426

一、集成算法思想

在决策树中，我们知道一个样本往左边分或者往右边分，最终到达叶子结点，这样来进行一个分类任务。其实也可以做回归任务。

看上面一个图例左边：有5个样本，现在想看下这5个人愿不愿意去玩游戏，这5个人现在都分到了叶子结点里面，对不同的叶子结点分配不同的权重项，正数代表这个人愿意去玩游戏，负数代表这个人不愿意去玩游戏。所以我们可以通过叶子结点和权值的结合，来综合的评判当前这个人到底是愿意还是不愿意去玩游戏。上面「tree1」那个小男孩它所处的叶子结点的权值是+2（可以理解为得分）。

用单个决策树好像效果一般来说不是太好，或者说可能会太绝对。通常我们会用一种集成的方法，就是一棵树效果可能不太好，用两棵树呢？

看图例右边的「tree2」，它和左边的不同在于它使用了另外的指标，出了年龄和性别，还可以考虑使用电脑频率这个划分属性。通过这两棵树共同帮我们决策当前这个人愿不愿意玩游戏，小男孩在「tree1」的权值是+2，在「tree2」的权值是+0.9，所以小男孩最终的权值是+2.9（可以理解为得分是+2.9）。老爷爷最终的权值也是通过一样的过程得到的。

所以说，我们通常在做分类或者回归任务的时候，需要想一想一旦选择用一个分类器可能表达效果并不是很好，那么就要考虑用这样一个集成的思想。上面的图例只是举了两个分类器&#