算法梳理之随机森林

最新推荐文章于 2023-03-28 15:47:02 发布

dzysunshine

最新推荐文章于 2023-03-28 15:47:02 发布

阅读量584

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/dzysunshine/article/details/85779581

版权

机器学习专栏收录该内容

46 篇文章 8 订阅

订阅专栏

1.集成学习与个体学习

个体学习器：通常是由一个现有的学习算法从训练数据中产生，例如C4.5决策树算法，BP神经网络算法等。

集成学习：通过构建并结合多个学习器来完成学习任务，根据包含的学习器的类型又分为同质集成和异质集成。

同质集成：只包含同种类型的个体学习器，只有同质集成中的个体学习器可称为“基学习器”，相应的学习算法成为“基学习算法”。（“决策树集成中”全是决策树，“神经网络集成中”全是神经网络）

异质集成：包含不同类型的学习器，个体学习器常称为“组件学习器”。

注意：弱学习器指泛化性能略优于随机猜测的学习器，例如在二分类问题上精度略高于50%的分类器。个体学习器至少不差于弱学习器。

根据个体学习器的生成方式，集成学习方法可分为两大类：
1.个体学习器间存在强依赖关系，必须串行生成的序列化方法（Boosting）
2.个体学习器间不存在强依赖关系，可同时生成的并行化方法（Bagging和随机森林）

2.Boosting与Bagging

Boosting（提升法）

对于训练集中的每个样本建立权值wi，表示对每个样本的关注度。当某个样本被误分类的概率很高时，需要加大对该样本的权值。
进行迭代的过程中，每一步迭代都是一个弱分类器。直到学习器数目达到事先指定的值T，用某种策略将其组合，作为最终模型。（例如AdaBoost给每个弱分类器一个权值，将其线性组合最为最终分类器。误差越小的弱分类器，权值越大）

1）在每一轮如何改变训练数据的权值或概率分布？
通过提高那些在前一轮被弱分类器分错样例的权值，减小前一轮分对样例的权值，来使得分类器对误分的数据有较好的效果。

2）通过什么方式来组合弱分类器？
通过加法模型将弱分类器进行线性组合，比如AdaBoost通过加权多数表决的方式，即增大错误率小的分类器的权值，同时减小错误率较大的分类器的权值。

Bagging（套袋法）

A）从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本（在训练集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中）。共进行k轮抽取，得到k个训练集。（k个训练集之间是相互独立的）

B）每次使用一个训练集得到一个模型，k个训练集共得到k个模型。（注：这里并没有具体的分类算法或回归方法，我们可以根据具体问题采用不同的分类或回归方法，如决策树、感知器等）

C）对分类问题：将上步得到的k个模型采用投票的方式得到分类结果；对回归问题，计算上述模型的均值作为最后的结果。（所有模型的重要性相同）

Bagging，Boosting二者之间的区别

1）样本选择上：

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。
Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

2）样例权重：

Bagging：使用均匀取样，每个样例的权重相等
Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

3）预测函数：