【机器学习】集成学习 (Ensemble Learning) (一) —— 导引

一、集成学习导读
摘要由CSDN通过智能技术生成


目录

一、概述

1.1 分类器

二、集成方法

2.1 自助聚合法 / 自举汇聚法 (Bagging)

2.1.1 自助采样法 (Bootstrap Sampling / Bootstrapping)

2.1.2 随机森林 (Random Forest)

2.2 提升法 (Boosting)

2.2.1 自适应提升 (Adaboost)

2.2.2 梯度提升 (Gradient Boosting)

2.3 堆叠法 (Stacking) 与 融合法 (Blending)

2.3.1 Stacking

2.3.2 Stacking 与 神经网络 NN

2.2.3 Blending

三、深度学习中的集成学习

3.1 丢弃法 / 随机失活 Dropout

3.2 测试集数据扩增 TTA

3.3 Snapshot


一、概述

集成学习 (ensemble learning),即分类器集成,构建多个学习器并通过某种集成方法组合它们来完成最终的学习任务,有时也被称为多分类器系统 (multi-classifier system)、基于委员会的学习 (committee-based learning) 等。一般结构是:先产生一组 “个体学习器”,再用某种策略将它们组合起来。组合策略主要有平均法、投票法和学习法等。集成学习主要用来提高模型(分类,预测,函数估计等)的性能,或用来降低模型选择不当的可能性。集成算法本身是一种监督学习算法,因为它可以被训练然后进行预测,组合的多个模型作为整体代表一个假设 (hypothesis)。

sklearn 官方文档 中,可以很容易找到各类集成算法 API 及其实现。

集成方法 本身并不是某种具体的方法或者是算法,只是一种训练机器学习模型的思路。它的含义只有一点,就是训练多个模型,然后将它们的结果汇聚在一起。集成方法将几种机器学习技术组合成一个预测模型的元算法,以达到减小方差 (bagging)、偏差 (boosting) 或改进预测 (stacking) 的效果。当然,也有说法 将多个分类器组合的方法 称为 集成方法 元算法

理论上,学习器的集成会从三个方面带来好处

  1. 首先,从 统计 的方面看,由于学习任务的假设空间往往很大,可能有多个假设在训练集上达到相同的性能,此时若使用单学习器,可能因误选而导致 泛化性能不佳,结合多个学习器则会减少这一风险;
  2. 其次,从 计算 的方面看,学习算法往往会陷入 局部极小,有的局部极小点所对应的泛化性能可能很糟糕,而通过多次运行之后进行结合,可降低陷入糟糕局部极小点的风险;
  3. 最后,从 表示 的方面看,某些学习任务的 真实假设可能不在当前学习算法所考虑的假设空间中,此时若使用单学习器则肯定无效,而通过结合多个学习器,由于相应的假设空间有所扩大,有可能学得更好的近似。

1.1 分类器

分类器 (Classifier) 是数据挖掘中对样本进行分类的方法的统称,包括:决策树、逻辑回归、朴素贝叶斯、神经网络 等算法。分类指在已有数据的基础上学会一个分类函数或构造出一个分类模型(即分类器,以便于将数据映射到给定类别,从而用于预测。

常见的分类器

  • 决策树分类器 的构造无需任何领域的知识和任何参数设置,因此特别适合于探测式的知识发现。此外,决策树分类器 不仅可采用类似树的形式处理高维数据,还特别直观和便于理解。因此,决策树是许多商业规则归纳系统的基础。
  • 素贝叶斯分类器 是一类假设数据样本特征完全独立、以贝叶斯定理为基础的简单概率分类器。
  • AdaBoost 算法 的自适应在于前一个分类器产生的错误分类样本会被用来训练下一个分类器,从而提升分类准确率,但对于噪声样本和异常样本较敏感。
  • 支持向量机 (SVM) 分类器 构建一个或多个高维的超平面 (样本间的分类边界) 将划分样本数据。
  • K 近邻 (KNN) 分类器 是基于距离计算的分类器,其选择 K 个距离度量上最佳的样本进行分析,从而简化计算提升效率

分类器构造和实施的基本过程

  1. 选定样本(包含正、负样本)并分成训练样本和测试样本两部分;
  2. 在训练样本上训练/拟合分类器算法,生成分类模型;
  3. 在测试样本上对分类模型进行测试/预测/推理,生成预测结果;
  4. 根据预测结果,计算必要的评估指标,评估分类模型的性能。

二、集成方法

  • Bagging 又称 自助聚合法 (Bootstrap Aggregating),通常考虑的是 同质弱
  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
完整全套资源下载地址:https://download.csdn.net/download/qq_27595745/66030967 【完整课程列表】 完整版 南京邮电大学 机器学习课程教程PPT课件 1-1.机器学习简介-上课版part1(共31页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 1-2 机器学习简介-上课版part2(共55页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 2. 概念学习 分类(共27页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 3 决策树(共44页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 4-1 贝叶斯学习(共18页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 5. 神经网络(共42页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 6 支持向量机(共29页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 7. 基于实例的学习-k近邻(共17页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 8-1 模式选择和评估(共30页).pdf 完整版 南京邮电大学 机器学习课程教程PPT课件 8-2 模式选择和评估(共14页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 9. 计算学习理论(共26页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 10 聚类分析(共74页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 12 特征选择(共36页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 13 Sparse-SDM10(共133页).pdf 完整版 南京邮电大学 机器学习课程教程PPT课件 14 机器学习总结(共25页).ppt 完整版 南京邮电大学 机器学习课程教程PPT课件 15 Overview of ensemble(共31页).ppt

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值