以XGBoost为代表的集成算法体现的哲学思想与数学技巧

最新推荐文章于 2022-03-18 15:18:07 发布

ypfzhao

最新推荐文章于 2022-03-18 15:18:07 发布

阅读量3.6k

点赞数

哲学思想一：抓住主要矛盾

为什么AdaBoost要增加前一次错分样本的权重？

为什么lightGBM可以忽略梯度小的样本？

哲学思想一：抓住主要矛盾

主要矛盾决定着事物发展的方向，规定和影响着其他矛盾的产生和发展。所以，解决问题要抓主要矛盾。如果抓不住主要矛盾，就抓不住重点，找不到中心。所以，抓住了主要矛盾，解决了主要矛盾，其他矛盾就会迎刃而解，在实践中我们必须学会“牵牛鼻子”的工作方法。

为什么AdaBoost要增加前一次错分样本的权重？

在AdaBoost中前一个基本分类器被错误分类的样本的权值会增大，而正确分类的样本的权值会减小，并再次用来训练下一个基本分类器。

这是AdaBoost算法的灵魂思想，其背后就是抓住主要矛盾、忽略次要矛盾，在构建下一个分类器时，重点关注前一个分类器分错的样本，它与前边的分类器形成协同作用，扩大正确分类的边界，减少错误分类的范围，共同提高了分类的能力。

我举一个现实中的例子作类比，假设一个基本分类器是一个小学生，AdaBoost更像老师，每次小学生有做错的题时，老师会重点标注，引起学生的重点学习，以提升下一次的学习正确率。这就是上文讲的改变数据的分布或者权值。

为什么lightGBM可以忽略梯度小的样本？

在一般的梯度提升树GBDT算法中，没有这样的直接权重来反应样本的重要程度。我们如何才能在不同的弱的决策树算法中，体现错分样本或者确切的说，未训练好样本的重要程度呢？

那就是梯度，梯度是一个很好的替代指标。我们在建一棵新树时，要计算损失函数对于之前已经构建模型预测的梯度，一个样本的梯度很小，说明已经构建模型的预测接近目标值，说明训练误差很小，或者说该样本已经得到了很好的训练(well-trained)。

所以，在集成算法lightGBM中，基于梯度的单侧采样技术（Gradient-based One-Side Sampling，GOSS)就是应用了这一重要思想，与AdaBoost改变样本权重有着异曲同工之妙！GOSS技术忽略了很大一部分梯度很小的数据，只关注梯度比较大的去估计树结构分数的增益。

这可以避免低梯度长尾部分的影响。由于梯度大的数据在计算增益的时候更重要，所以GOSS在忽略一些数据后仍然可以取得相当准确的估计值。

在GOSS中，通过以下步骤来选择梯度较大的样本，并且兼顾梯度较小的样本。

首先根据数据的梯度将训练降序排序。保留top a个（百分比）数据实例，作为数据子集A。对于剩下的数据的实例，随机采样获得大小为b（百分比）的数据子集B在计算增益的时候，放大样本B中的梯度(1a)/b 倍最后我们通过以下方程估计信息增益:

以上过程既抓住了主要矛盾，同时双兼顾了次要矛盾。

哲学思想二：

矛盾在一定条件下是可以相互转化的。

各哲学流派对此都有不少精彩论述。中国著名的哲学名著《道德经》就有"...故有无相生，难易相成，长短相形，高下相倾，音声相和，前后相随"。就这么几句话几十个字，就把自然界、宇宙、社会、人生的一个普遍规律概括出来了：矛盾对立统一。

我们在任何地方都不怕遇到矛盾，因为矛盾是两面的，有它对立的一面又有它统一的一面。在一定条件是相互转化的。矛盾双方的转化未有穷尽。正如《道德家》中"强大处下，柔弱处上"，集成算法中基本分类器都是弱分类器，但在一定条件集成下，却是非常强的分类器。

为什么随机森林比单一决策树更好？

随机森林背后的基本思想是将许多决策树组合成一个单一的模型。单独地，决策树做出的预测可能不准确，但结合在一起，预测平均后更接近目标。

森林中的每个决策树在形成问题时都会考虑一个随机的特征子集，并且只访问一组随机的训练数据点。这增加了森林的多样性，导致更强大的整体预测。

举一个预测第二天最高天气温度的问题，假如我们可以让数百人估计第二天温度：通过汇总预测，可以得到比任何一个人更接近真实温度的预测。

每个人都会为问题带来自己的背景经验和信息来源。也许一个人依靠气象学家朋友进行预测，而另一个人则使用数百年的温度数据，或者天气预报。如果我们只问一个人，我们只会利用他们有限的信息范围，但通过将每个人的预测结合起来，我们的信息网络要大得多。此外，每个人的信息来源越多样化，随机森林越健壮，因为它不会受到单个异常数据源的影响。如果每个人都一样，那么我们的整个模型将毫无价值。相反，如果我们的"森林"中的个体使用了许多不同的天气来源，那么我们的模型不会受到单一来源的极大影响，我们可以做出合理的预测。

这种将许多简单的想法结合在一起，却可以产生从数据中"学习"的极其准确的模型。随机森林也不例外。随机森林模型的力量来源于，将随机的、多样化的弱的决策树组合起来的思想。而随机和多样化这两个思想在我们的日常生活中都是众所周知的。

为什么要用弱学习器？

AdaBoost中对弱分类器的要求，只要比随机猜测要好一些就可以，也就是错误率要小于50%。AdaBoost算法把这些弱分类器组合起来，形成一个强大的分类器。

这是分类器权重αt与错分率εt的函数关系。用图示如下图：

那么：

没有错误: εt=0→αt=∞全部错误: εt=1 →αt=∞随机: εt=0.5→αt=0可见只要基分类器比随机的错误率为0.5的要好，那么它就在最后的加法模型中有权重。并且越是错误率越低权重越大。

弱分类器有几大好处：

第一、弱学习者计算速度快，模型复杂度低。

第二、弱学习者更容易解释，线性模型居多。

第三、留有改进空间。如果我们使用更强的学习者，那么改进的空间会变小，不利于集成，不利用把占各个方面占有特长的学习器集成起来，同时避免过拟合风险。

用偏差与方差理论解释：

集成方法设计体现了同时追求减少方差、减少偏差。减少方差，是因为你使用的是多个模型；减少偏差，是因为先前模型所做的错误（增强部分）来训练后续模型，从而减少偏差。

提升是基于弱学习者（具有高偏差，低方差）。在决策树方面，弱学习者是浅树，有时甚至像决策树桩一样小（有两片叶子的树），提升主要通过减少偏差来减少真实风险。随机森林使用完全成长的决策树（具有低偏差，高方差）。通过汇总来自许多单个树模型的输出，来提高泛化能力，减少方差。因为这些单个决策树是随机的、多样化的，模型更加接近真实，减少过拟合。

哲学思想三：如无必要、勿增实体

奥卡姆剃刀（Occam's Razor）是由14世纪逻辑学家、圣方济各会修士奥卡姆的威廉（William of Occam）提出。他在《箴言书注》2卷15题说：“切勿浪费较多东西去做，用较少的东西，同样可以做好的事情。”

剃刀原则在当时的主要作用是：对学界争论的一些问题，如上帝是否存在？什么是真实?等等进行哲学思辨。他主张的“思维经济原则”，概括起来就是“如无必要，勿增实体”。奥卡姆剃刀在社会各方面已得到越来越多的应用，在科学思维、企业管理、美学等等都有着广泛的应用。在机器学习中也有着重要的应用，控制模型复杂度、规避过拟合就是Occam's Razor的直接应用。

在XGBoost中，定义树的复杂度如下，包括叶子节点的个数和叶子权重的L2范数。