机器学习算法之集成学习：随机森林、GBDT、XGBoost（上）

最新推荐文章于 2023-04-05 21:08:48 发布

Mr Robot

最新推荐文章于 2023-04-05 21:08:48 发布

阅读量1.1k

点赞数 2

分类专栏：机器学习人工智能文章标签：算法 python 机器学习

本文链接：https://blog.csdn.net/leva345/article/details/119184615

版权

人工智能同时被 2 个专栏收录

135 篇文章 6 订阅

订阅专栏

机器学习

42 篇文章 3 订阅

订阅专栏

一程序员家的水管坏了，他打电话叫来一个水管工修理。水管工鼓捣了一个小时，终于把管子修好了，他递给程序员一张600元的帐单。
“600元！”程序员愤怒地说：“我当程序员一天都赚不了这么多钱！”
“是啊。”水管工平静地说，“我当程序员的时候也是。”
在这里插入图片描述

随机森林
提升算法
GBDT(迭代决策树)
Adaboost

集成学习(Ensemble Learning)

集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。
弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(error
rate < 0.5)；
集成算法的成功在于保证弱分类器的多样性(Diversity)。而且集成不稳定的算法
也能够得到一个比较明显的性能提升。
常见的集成学习思想有：
Bagging
Boosting
Stacking
在这里插入图片描述
Why need Ensemble Learning?
1. 弱分类器间存在一定的差异性，这会导致分类的边界不同，也就是说可能存在
错误。那么将多个弱分类器合并后，就可以得到更加合理的边界，减少整体的错
误率，实现更好的效果；
2. 对于数据集过大或者过小，可以分别进行划分和有放回的操作产生不同的数据
子集，然后使用数据子集训练不同的分类器，最终再合并成为一个大的分类器；
3. 如果数据的划分边界过于复杂，使用线性模型很难描述情况，那么可以训练多
个模型，然后再进行模型的融合；
4. 对于多个异构的特征集的时候，很难进行融合，那么可以考虑每个数据集构建
一个分类模型，然后将多个模型融合。

Bagging方法

Bagging方法又叫做自举汇聚法(Bootstrap Aggregating)，思想是：在原始数
据集上通过有放回的抽样的方式，重新选择出S个新数据集来分别训练S个分类器
的集成技术。也就是说这些模型的训练数据中允许存在重复数据。
Bagging方法训练出来的模型在预测新样本分类的时候，会使用多数投票或者求
均值的方式来统计最终的分类结果。
Bagging方法的弱学习器可以是基本的算法模型，eg: Linear、Ridge、Lasso、
Logistic、Softmax、ID3、C4.5、CART、SVM、KNN等。
备注：Bagging方式是有放回的抽样，并且每个子集的样本数量必须和原始样本
数量一致，但是子集中允许存在重复数据。

Bagging方法_训练过程

在这里插入图片描述

随机森林

在Bagging策略的基础上进行修改后的一种算法
从样本集中用Bootstrap采样选出n个样本；
从所有属性中随机选择K个属性，选择出最佳分割属性作为节点创建决策树；
重复以上两步m次，即建立m棵决策树；
这m个决策树形成随机森林，通过投票表决结果决定数据属于那一类
在这里插入图片描述

RF的推广算法

RF算法在实际应用中具有比较好的特性，应用也比较广泛，主要应用在：分类、
回归、特征转换、异常点检测等。常见的RF变种算法如下：
Extra Tree
Totally Random Trees Embedding(TRTE)
Isolation Forest

Extra Tree

Extra Tree是RF的一个变种，原理基本和RF一样，区别如下：

RF会随机采样来作为子决策树的训练集，而Extra Tree每个子决策树采用原始数
据集训练；
RF在选择划分特征点的时候会和传统决策树一样，会基于信息增益、信息增益率、
基尼系数、均方差等原则来选择最优特征值；而Extra Tree会随机的选择一个特征值
来划分决策树。
Extra Tree因为是随机选择特征值的划分点，这样会导致决策树的规模一般大于
RF所生成的决策树。也就是说Extra Tree模型的方差相对于RF进一步减少。在某
些情况下，Extra Tree的泛化能力比RF的强。

Totally Random Trees Embedding(TRTE)

TRTE是一种非监督的数据转化方式。将低维的数据集映射到高维，从而让映射
到高维的数据更好的应用于分类回归模型。
TRTE算法的转换过程类似RF算法的方法，建立T个决策树来拟合数据。当决策
树构建完成后，数据集里的每个数据在T个决策树中叶子节点的位置就定下来了，
将位置信息转换为向量就完成了特征转换操作。
案例：有3棵决策树，每棵决策树有5个叶子节点，某个数据x划分到第一个决策
树的第3个叶子节点，第二个决策树的第一个叶子节点，第三个决策树的第第五
个叶子节点，那么最终的x映射特征编码为:(0,0,1,0,0, 1,0,0,0,0, 0,0,0,0,1)

Isolation Forest(IForest)

IForest是一种异常点检测算法，使用类似RF的方式来检测异常点；IForest算法
和RF算法的区别在于：

在随机采样的过程中，一般只需要少量数据即可；
在进行决策树构建过程中，IForest算法会随机选择一个划分特征，并对划分特征
随机选择一个划分阈值；
IForest算法构建的决策树一般深度max_depth是比较小的。
区别原因：目的是异常点检测，所以只要能够区分异常的即可，不需要大量数据；
另外在异常点检测的过程中，一般不需要太大规模的决策树。

对于异常点的判断，则是将测试样本x拟合到T棵决策树上。计算在每棵树上该
样本的叶子节点的深度ht(x)。从而计算出平均深度h(x)；然后就可以使用下列公
式计算样本点x的异常概率值，p(s,m)的取值范围为[0,1]，越接近于1，则是异常
点的概率越大。

在这里插入图片描述