机器学习（集成学习，随机森林）

最新推荐文章于 2023-05-27 18:22:46 发布

东子。

最新推荐文章于 2023-05-27 18:22:46 发布

阅读量515

点赞数

本文链接：https://blog.csdn.net/qq_46295527/article/details/111301430

版权

集成方法概述
为什么能够提高效果?
增强模型的表达能力
单个感知机无法正确分类数据集成三个感知机能正确分类数据降低误差

基模型集成策略
多数投票方法(majority vote)平均(averaging)
加权平均(weighted averaging):如AdaBoost

典型的集成方法
Bagging
个体学习器间不存在强依赖关系，可同时生成的并行化方法
对样本或特征随机取样，学习产生多个独立的模型，然后平均所有模型的预测值
主要减小方差
典型代表随机森林
有效性原因:通过降低由于不稳定学习器(unstablelearners)所造成的方差来降低错误率。不稳定学习器指那些在训练数据发生轻微变化的情况下,学习结果会发生很大变化的学习器,例如决策树

Boosting
●个体学习器间存在强依赖关系，必须串行生成的序列化
方法
串行训练多个模型，后面的模型是基于前面模型的训练结果（误差)
主要减小偏差代表是AdaBoost

在这里插入图片描述 Bagging的优势
特别适合用来提高那些方差大但偏差小的基模型(决策树，神经网络等)的预测性能
单个模型不稳定:对训练数据轻微的改变就能够造成分类器性能很明显的变化
使用Bagging可以综合投票结果，从而提升稳定性以及准确率
便于并行化。多个抽样数据的获取及基模型的训练互相没有关联，可以方便地进行并行计算

9.2.2随机森林
最典型的Bagging算法:“随机”是其核心，“森
林”意在说明它是通过组合多棵决策树来构建模型

主要特点:
对样本进行有放回抽样
对特征进行随机抽样
基本分类器最常见的为决策树

它在许多实际问题中得到了广泛的应用，例如市场营销、股票市场分析、金融欺诈检测、基因组数据分析和疾病风险预测

随机森林的算法原理
·随机森林使用并汇总多棵决策树进行预测，所以即使每棵树的决策能力很弱，由它们组合起来形成的随机森林的决策能力也会较强

·假设使用三棵决策树组合成随机森林，每棵树各不相同且预测结果相互独立，每棵树的预测错误率为40%。
那么两棵树以及两棵树以上预测错误的概率下降为:三棵全部错误＋两棵树错误一个棵树正确=0.43＋3*0.42 * (1一0.4)= 0.352

在上述过程中，需要注意一点是错误率降低的前提假设:每棵树各不相同且预测结果相互独立
随机森林在构建每棵树的时候，为了保证各棵树之间的独立性，通常会采用两到三层的随机性
随机有放回的抽取样本
随机选取m个特征
随机选择特征值进行分割(不遍历特征所有取值)

随机森林的算法过程
在这里插入图片描述随机选取多少个特征
大的m值可以使得决策树的准确率提高，但是多棵决策树之间的相关性却很高
方法一:交叉验证方法选取最佳m值
方法二:经验设置。通常选取m = log2 d+1，其中d为特征维度

随机森林的性能评估
分类间隔(margin):正确分类某样本的决策树的比例减去错误分类样本决策树的比例
假设对样本A有75%的树分类正确，那么分类间隔就是75%—25% = 50
通过平均随机森林在各个样本上的分类间隔得到随机森林的分类间隔
实际中，我们希望分类间隔越大越好，因为大的分类间隔表示我们的分类效果比较稳定，泛化效果更好

袋外误差(Out-Of-Bag Error，0OB):随机森林对袋外样本的预测错误率
袋外样本:对于每一棵树而言，没有被抽样到训练集中的样本
计算方式:
对每个样本，计算把该样本作为袋外样本的树对该样本的分类情况
以简单多数投票作为该样本的分类结果
以误分样本个数占样本总数的比率作为随机森林的袋外误差

随机森林与特征选择
随机森林能够给出特征的重要性度量，帮助进行特征选择
计算特征的平均信息增益大小。
训练决策树时，可以算出每个特征在每棵树中有多大的信息增益，算出每个特征在随机森林中的平均信息增益，作为该特征的重要性
计算每个特征对模型准确率的影响。
通过打乱样本中某一特征的特征值顺序，产生新样本。新样本放入建立好的随机森林模型计算准确率,对于重要的特征来说，打乱顺序会极大的降低模型的准确率。

随机森林的优缺点
优点:
能够处理很高维度的数据，并且不用做特征选择
对特征之间存在的多重共线性不敏感，并且能够在一定程度上处理缺失数据和不均衡数据
在训练完后能够给出哪些特征比较重要容易做成并行化方法

缺点:
处理噪音较大的小样本和低维数据集的问题上会过度拟合
相对于决策树，预测速度较慢相对于决策树，模型可解释性较差

随机森林的其他功能
计算样本的相似度
在建立随机森林的时候，记录样本两两之间出现在同一叶子节点的次数，生成相似性矩阵(proximity matrix);
如果越多的出现在同一叶节点，说明这两个样本越相似;如果越少的出现在同一叶节点，说明两个样本差异越大。

基于决策树的Bagging模型
在这里插入图片描述