xgboost分类原理

XGBoost采用的是回归树,所以预测值也必须是回归值,这跟二分类问题有了冲突。

那么XGB如何解决呢?它实际上是将二分类问题当作logistic回归问题来看待的。
在逻辑斯蒂回归中,我们自然希望,对于0类样本,它的概率要尽可能小于0.5,对应到叶子值那就是应该是尽可能负。
在这里插入图片描述
在逻辑斯蒂回归中,我们自然希望,对于0类样本,它的概率要尽可能小于0.5,对应到叶子值那就是应该是尽可能负。那么我们算出来的这个近乎最优w值它是不是负的?
在这里插入图片描述

在理论情况下,pbefore即为前面t-1棵决策树叶子值相加后再进行sigmoid转换得到的概率,它理应是0.5以下,假如我们设为0.4,那么前述t-1轮所有决策树的叶子值肯定也是负的,假设一个叶子只有一个样本该样本为负样本,那么g1=0.4,对应的w=-0.4/(0.24+lambda),这个值也是负的,如果这个叶子混进去了正样本,那么g2=-0.6,G=-0.2,w=0.2/(0.24+lambda),显然与我们相悖,所以XGB的分裂方式仍然是在保证同类样本应该被分到同一个叶子中去的。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
XGBoost,全名Extreme Gradient Boosting,是一种高效的梯度提升树算法,它结合了决策树、梯度增强学习以及并行计算等技术,旨在提高模型的预测精度和效率。 ### 分类原理 #### 1. 决策树构建 XGBoost基于决策树结构进行数据分类。每个决策树都是通过迭代的方式建立起来的,每一步优化的过程都尝试减少训练集上的损失函数值。XGBoost支持多种损失函数选择,包括但不限于二分类、多分类等问题常用的损失函数。 #### 2. 梯度提升 梯度提升策略使得模型能够通过最小化损失函数来逐渐改进预测结果。每次迭代都会添加一个新的树模型,这个新的树会专门针对前一次迭代所犯错误的数据进行调整,即通过拟合残差来改善当前模型的性能。 #### 3. 树构建过程 - **特征选择**:XGBoost使用特征重要性评估机制,在构建决策树时优先考虑那些能提供最大信息增益或最小化基尼不纯度的特征。 - **叶子节点输出**:对于回归任务,叶子节点通常输出连续值;而对于分类任务,则输出类别概率分布。这些概率表示了实例属于各个类别的可能性大小。 #### 4. 并行计算 XGBoost设计时充分考虑了并行计算环境,利用多核CPU加速训练过程。它支持各种形式的数据并行,能够在分布式集群上运行,显著缩短模型训练时间。 #### 5. 正则化 为了防止过拟合,XGBoost引入L1正则化和L2正则化,分别用于惩罚系数的绝对值之和和平方和,有助于减小模型复杂度。 ### 应用场景 XGBoost因其高效性和高预测能力,广泛应用于各类机器学习和深度学习领域,尤其是在处理大规模数据集时展现出优异的效果。在金融风控、推荐系统、医疗诊断等领域有广泛应用。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值