你想知道的决策树原理及推导

本篇博客的目录:
特征
思想
信息增益
几个小知识点
决策树直观的例子
ID3,CART,C4.5算法


决策树的特征

优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据
缺点:可能会产生过度匹配问题,不能有效利用特征间的关联关系
适用数据类型:数值型和标称型

决策树构造思想

要构造决策树,就需要根据样本数据集的数据特征对数据集进行划分,直到针对所有特征都划分过,或者划分的数据子集的所有数据的类别标签相同。然而要构造决策树,面临的第一个问题是先对哪个特征进行划分,即当前数据集上哪个特征在划分数据分类时起决定性作用。

信息增益

这块可以参考这篇文章https://blog.csdn.net/blank_tj/article/details/82056413

通过量化的方法将信息度量出来,利用信息论度量信息是一种有效方法。所以,我们可以在划分数据前后使用信息论量化度量信息的内容。
在划分数据集前后信息发生的变化成为信息增益,知道如何计算信息增益,就可以计算根据每个特征划分数据集获得的信息增益,获得信息增益最高的特征就是最好的选择。
例如: AB+C A → B + C ,那么信息增益为:增益 = A - B - C


例如:一个盒子中分别有5个白球和5个红球,随机取出一个球,问,这个球是红色还是白色?这个问题信息量多大呢?由于红球和白球出现的概率都是1/2,那么久可以得到其信息熵为: H(x)=(12log2(12)+12log2(12))=1 H ( x ) = − ( 1 2 l o g 2 ( 1 2 ) + 1 2 l o g 2 ( 1 2 ) ) = 1 ,是的,这个信息量是1bit。

如果一个盒子里有10个红球,随机取出一个,这个球什么颜色?这个问题的信息量是多少?信息量是0,因为这是一个确定事件,概率P(x)=1


在信息科学中,信息越混乱,熵越大。信息熵其实是一个随机变量信息量的数学期望,要明确这个概念,就要知道信息的定义。如果待分类的事务可能划分在多个分类之中,则符号 xi x i 的信息定义为:

l(xi)=log2 p(xi) l ( x i ) = − l o g 2   p ( x i ) 其中 p(xi) p ( x i ) 是选择该分类的概率

为了计算熵,我们需要计算所有类别所有可能值包含的信息期望值,通过下面的公式得到:

H=

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
XGBoost(eXtreme Gradient Boosting)是一种基于梯度提升树的机器学习算法,它在各种机器学习竞赛中表现出色。下面是XGBoost的原理和公式推导: 1. 原理: XGBoost是一种集成学习算法,通过组合多个弱学习器(决策树)来构建一个强学习器。它采用了梯度提升的思,每一轮迭代都通过拟合前一轮模型的残差来训练新的模型,然后将新模型加入到集成中。 2. 损失函数: XGBoost使用了一种特殊的损失函数,称为目标函数。目标函数由两部分组成:损失函数和正则化项。常用的损失函数有平方损失函数、逻辑损失函数等。 3. 梯度提升: 在XGBoost中,每个决策树都是通过梯度提升来构建的。梯度提升的过程可以简单描述为以下几个步骤: - 初始化模型:将初始预测值设置为常数,通常为训练集样本的平均值。 - 计算残差:计算当前模型对训练集样本的预测值与真实值之间的差异,得到残差。 - 拟合决策树:使用残差作为目标变量,拟合一个决策树模型。 - 更新模型:将新的决策树模型加入到集成中,并更新模型的预测值。 - 重复以上步骤,直到达到预定的迭代次数或满足停止条件。 4. 正则化: 为了防止过拟合,XGBoost引入了正则化项。正则化项由两部分组成:树的复杂度和叶子节点权重的L1或L2正则化。通过控制正则化参数,可以平衡模型的复杂度和拟合能力。 5. 公式推导: XGBoost的公式推导涉及到目标函数、损失函数、正则化项等,具体推导过程较为复杂。你可以参考XGBoost的论文《XGBoost: A Scalable Tree Boosting System》中的相关推导部分,详细了解公式推导的细节。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值