树模型算法

最新推荐文章于 2024-07-06 16:35:57 发布

一只勤奋爱思考的猪

最新推荐文章于 2024-07-06 16:35:57 发布

阅读量968

点赞数

分类专栏： machine learning

本文链接：https://blog.csdn.net/sinat_26566137/article/details/106725721

版权

machine learning 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一级目录

一、决策树算法

构建决策树时通常采用自上而下的方法，在每一步选择一个最好的属性来分裂。“最好” 的定义是使得子节点中的训练集尽量的纯（信息增益最小，其中信息增益=未用该属性的上一层即分裂前的类别的熵值-用了该属性即这一层本类别的熵值）。不同的算法使用不同的指标来定义"最好"。
在这里插入图片描述
一个描述泰坦尼克号上乘客生存的决策树 ("sibsp"指甲板上的兄妹和配偶)。每个决策叶下标识该类乘客的生存几率和观察到的比率；
下面介绍几个常用的指标。
基尼不纯度指标
备注提示：不是基尼系数。
在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时，基尼不纯度为零。
在这里插入图片描述
信息增益[编辑]
ID3, C4.5 和 C5.0 决策树的生成使用信息增益。信息增益是基于信息论中信息熵与自信息理论.
信息熵定义为：

决策树是各种机器学习任务的常用方法。 Hastie等说：“树学习是如今最能满足于数据挖掘的方法，因为它在特征值的缩放和其他各种转换下保持不变，对无关特征是鲁棒的，而且能生成可被检查的模型。然而，它通常并不准确。”

二、随机森林模型

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。
随机森林的引入最初是由华裔美国人何天琴于1995年[1]先提出的。[2]然后随机森林由Leo Breiman于2001年在一篇论文中提出的。[4]这篇文章描述了一种结合随机节点优化和bagging，利用类CART过程构建不相关树的森林的方法。此外，本文还结合了一些已知的、新颖的、构成了现代随机森林实践的基础成分，特别是

使用out-of-bag误差来代替泛化误差
通过排列度量变量的重要性
特别的，生长很深的树容易学习到高度不规则的模式，即过学习（也即过拟合），在训练集上具有低偏差和高方差的特点。随机森林是平均多个深决策树以降低方差的一种方法，随机森林中决策树是在一个数据集上的不同部分进行训练的。[5]这是以偏差的小幅增加和一些可解释性的丧失为代价的，但是在最终的模型中通常会大大提高性能。

特征的重要性
out-of-bag误差是什么？我不懂！！！！
随机森林天然可用来对回归或分类问题中变量的重要性进行排序。下面的技术来自Breiman的论文，R语言包randomForest包含它的实现。
度量数据集 D的特征重要性的第一步是，使用训练集训练一个随机森林模型。在训练过程中记录下每个数据点的out-of-bag误差，然后在整个森林上进行平均。
为了度量第i个特征的重要性，第i个特征的值在训练数据中被打乱，并重新计算打乱后的数据的out-of-bag误差。则第i个特征的重要性分数可以通过计算打乱前后的out-of-bag误差的差值的平均来得到，这个分数通过计算这些差值的标准差进行标准化。
产生更大分数的特征比小分数的特征更重要。这种特征重要性的度量方法的统计定义由Zhu et al.给出。
这种度量方法也有一些缺陷。对于包含不同取值个数的类别特征，随机森林更偏向于那些取值个数较多的特征，partial permutations、growing unbiased trees可以用来解决这个问题。如果数据包含一些相互关联的特征组，那么更小的组更容易被选择。
在这里插入图片描述

三、梯度提升树

梯度提升（梯度增强）是一种用于回归和分类问题的机器学习技术，其产生的预测模型是弱预测模型的集成，如采用典型的决策树作为弱预测模型，这时则为梯度提升树（GBT或GBDT）提升方法一样，它以分阶段的方式构建模型，但它通过允许对任意可微分损失函数进行优化作为对一般提升方法的推广。（对比xgboost,它的弱分类学习器是cart）
梯度提升的思想源自Leo Breiman的一个观察：即可以将提升方法解释为针对适当成本函数的优化算法。 [1]显式回归梯度增强算法随后由Jerome H. Friedman [2] [3]给出，同时Llew Mason，Jonathan Baxter，Peter Bartlett和Marcus Frean在两篇论文中给出更一般的函数空间上的梯度提升观点。 [4] [5]这两篇论文介绍了将Boosting算法看作函数空间上的梯度下降迭代算法的观点。即，将其视为通过迭代地选择指向负梯度方向的函数（弱预测模型）来优化函数空间上的成本函数的算法。这种将提升视为函数梯度的观点导致了除回归和分类之外的许多机器学习和统计领域中提升算法的发展。
在这里插入图片描述

一只勤奋爱思考的猪

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
树模型算法

目录一级目录一、决策树算法二、随机森林模型三、梯度提升树一级目录一、决策树算法构建决策树时通常采用自上而下的方法，在每一步选择一个最好的属性来分裂。“最好” 的定义是使得子节点中的训练集尽量的纯（信息增益最小，其中信息增益=未用该属性的上一层即分裂前的类别的熵值-用了该属性即这一层本类别的熵值）。不同的算法使用不同的指标来定义"最好"。一个描述泰坦尼克号上乘客生存的决策树 ("sibsp"指甲板上的兄妹和配偶)。每个决策叶下标识该类乘客的生存几率和观察到的比率；下面介绍几个常用的指标。基尼不纯
复制链接

扫一扫

专栏目录