2020-11-03

最新推荐文章于 2022-05-22 16:48:01 发布

bai1998

最新推荐文章于 2022-05-22 16:48:01 发布

阅读量332

点赞数

文章标签：数据挖掘

本文链接：https://blog.csdn.net/bai1998/article/details/109463708

版权

数据挖掘实训第六周周报

决策树是以树状结构表示数据分类的结果

非叶子结点代表测试的条件，分支代表测试的结果。

构造决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支，其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。分裂属性分为三种不同的情况：

随机森林由决策树组成,这些决策树是随机的,随机性由随机选择属性、数据决定。由于这个特点，这些决策树也叫随机决策树。随机性可以避免过分拟合。测试数据进入随机森林时，实质是由一个个决策树进行分类，最后的类别由这些决策树的输出的众数决定。

GBDT是一种迭代的决策树算法，它通过构造一组弱的学习器（树），并把多颗决策树的结果累加起来作为最终的预测输出。

我们知道，度量任何一个模型最重要的就是这个模型的损失函数，我们训练的目标就是使得损失函数L最小化。

preview

当损失函数是平方损失和指数损失时，每一步优化是很简单的。但对一般损失函数而言，往往每一步优化都没那么容易，如绝对值损失函数。

如何使损失函数最小化？调整参数，使得损失沿着梯度向下降。

对于损失函数为平方损失函数的，我们可以使用的是yj-Ti对xj的预测结果作为残差。那么对于其他类型的损失函数我们使用什么作为残差以达到最好效果呢？针对这一问题，Freidman提出梯度提升算法：利用最速下降的近似方法，即利用损失函数的负梯度在当前模型的值。

如果我们对提升树的损失函数求偏导，能发现，偏导是等于残差的

因此，对于不同损失函数，我们可以使用损失函数的偏导作为我们的残差。

这就是梯度提升决策树了。

XGBoost是GBDT的一种高效实现，XGBoost中的基学习器除了可以是CART也可以是线性分类器。

关注