DataWhale机器学习高级算法梳理Day1-随机森林

最新推荐文章于 2022-12-13 19:57:05 发布

lightis_tian

最新推荐文章于 2022-12-13 19:57:05 发布

阅读量296

点赞数

分类专栏：机器学习学习笔记文章标签：机器学习随机森林算法

本文链接：https://blog.csdn.net/qq_42874547/article/details/98668259

版权

学习笔记同时被 2 个专栏收录

25 篇文章 3 订阅

订阅专栏

机器学习

9 篇文章 0 订阅

订阅专栏

本文介绍了集成学习的概念，特别是随机森林这一重要的机器学习算法。随机森林通过构建多个决策树并结合它们的预测结果，以提高模型的准确性和鲁棒性。文章详细讲解了个体学习器、Boosting与Bagging的区别，以及随机森林的构建思想和优缺点，并探讨了在sklearn库中使用随机森林时的重要参数设置。

摘要由CSDN通过智能技术生成

1.集成学习的概念

集成学习（Ensemble learning）通过构建多个学习器来完成学习任务，有时也被称为多分类器系统，基于委员会的学习等等。结构如下：
[](

2. 个体学习器的概念

个体学习器通常由一个现有的学习算法从训练数据中产生。

集成中只包含同种类型的个体学习器叫同质学习器，也叫基学习器，相应的算法被称为基学习算法。

对应包含不同类型的个体学习器的集成，叫异质学习器，由不同的学习算法组成。此时，集成里的个体学习器被称为组件学习器。

3. boosting bagging的概念、异同点

boosting: 是一族可以将弱学习器提升为强学习器的算法。

工作机制：
1. 先从初始训练集训练出一个基学习器
2. 根据基学习器对样本分布进行调整，使得先前基学习器做错的训练样本在后续过程受到更多重视
3. 然后基于调整后的训练样本分布来训练下一个基学习器
4. 重复若干次，直至基学习器数目达到指定值 $T$
5. 将这 $T$ 个基学习器进行加权组合。

bagging： 并行式集成学习算法，直接基于自助采样法。

工作机制：
1. 给定包含 $m$ 个样本的数据集
2. 先随机取出一个样本放入采样集中，再把样本放回初始数据集
3. 经过 $m$ 次采样操作，得到含有 $m$ 个样本的采样集
4. 如此，我们可以采样出 $T$ 个含 $m$ 个训练样本的采样集
5. 基于每个采样集训练出一个基学习器
6. 再将这些基学习器进行结合

在对预测输出进行结合时，Bagging对不同的任务有不同的结合策略：

回归任务	分类任务
简单平均法	简单投票法

4. 不同的结合策略(平均法，投票法，学习法)

平均法
对于数值型输出最常见的结合策略是平均法。

简单平均法
$\frac{1}{T} \sum^T_{i = 1} h_i(\bm{x})$
加权平均法
$\frac{1}{T} \sum^T_{i = 1} w_i h_i(\bm{x})$
加权平均法不一定优于简单平均法。

投票法

将 $h_i$ 在样本 $\bm x$ 上的预测输出表示为一个 $N$ 维向量 $(h_i^1(\bm x);h_i^2(\bm x) …;h_i^n(\bm x))$ ，其中 $;h_i^n(\bm x)$ 是 $h_i$ 在类别标记 $c_j$ 上的输出。

绝对多数平均法
$\begin{cases} c_j & if \sum^T_{i=1}h_i^j(\bm x) > 0.5 \quad \sum^N_{k=1} \sum^T_{i=1} h_i^k(\bm x) \\ ~\\ reject & , otherwise \end{cases}$
若某标记得票过半，则预测为该标记，否则拒绝
相对多数投票法
$c_{arg\ max \sum^T_{i=1} h_i^j(\bm x)}$
预测为得票最多的标记
加权投票法
$c_{arg\ max \sum^T_{i=1}w_i h_i^j(\bm x)}$

学习法

即通过另一个学习器来进行结合。

5. 随机森林的思想

传统决策树在划分选择属性时是在当前节点的属性集合中选择一个最优属性。

在RF中，对基决策树的每个节点，先从该节点的属性集合中随机选择一个包含 $k$ 个属性的子集，然后再从这个子集中选择一个最优属性用于划分。

参数 $k$ 控制了随机性的引入程度：若 $k = d$ 则基决策树的构建与传统决策树相同；若 $k = 1$ 是随机选择一个属性用于划分；一般情况下，推荐 $k=log_2d$ 。

6. 随机森林的推广

7. 随机森林的优缺点

优点：简单、容易实现、计算开销小，在很多任务中表现好

8. 随机森林在sklearn中的参数解释

max_features: RF划分时考虑的最大特征数。
max_depth: 决策树最大深度。默认为"None"，
min_samples_split: 内部节点再划分所需最小样本数，默认2。 min_samples_leaf:叶子节点最少样本数。
min_weight_fraction_leaf：叶子节点最小的样本权重和。
max_leaf_nodes: 最大叶子节点数。
min_impurity_split: 节点划分最小不纯度。
splitter: 随机选择属性"random"还是选择不纯度最大"best"的属性
presort:是否对数据进行预分类，以加快拟合中最佳分裂点的发现。
9. 随机森林的应用场景
数据维度相对低（几十维），同时对准确性有较高要求时。

lightis_tian

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
DataWhale机器学习高级算法梳理Day1-随机森林

1. 集成学习集成学习（Ensemble learning）通过构建多个学习器来完成学习任务，有时也被称为多分类器系统，基于委员会的学习等等。结构如下：个体学习器通常由一个现有的学习算法从训练数据中产生。集成中只包含同种类型的个体学习器叫同质学习器，也叫基学习器，相应的算法被称为基学习算法。对应包含不同类型的个体学习器的集成，叫异质学习器，由不同的学习算法组成。此时，集成里的个体学习器被称...
复制链接

扫一扫