机器学习——集成学习

📕参考:ysu老师课件+西瓜书 +期末复习笔记


1.集成学习的基本概念

集成学习(ensemble learing)通过构建并结合多个学习器来完成学习任务。

有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning)等。

理解:集成学习是一种机器学习方法,其核心思想是将多个学习器(弱学习器)集成在一起,以达到比单个学习器更好的性能。通过组合多个学习器的预测结果,集成学习可以提高整体的泛化能力和稳定性,从而在复杂的任务中取得更好的性能。        

 集成学习的主要目标是通过组合多个模型,弥补单个模型的局限性,减少过拟合,并提高模型的鲁棒性。

优缺点

集成学习的主要优缺点:

优点:

  1. 提高泛化能力: 集成学习能够减少模型的方差,提高模型的泛化能力。通过组合多个学习器,可以弥补单个学习器的局限性,提高整体性能。

  2. 降低过拟合风险: 通过在不同的子集上训练不同的学习器,集成学习降低了过拟合的风险。这对于处理复杂的数据和噪声较大的情况非常有用。

  3. 提高鲁棒性: 集成学习对数据的变化和噪声具有一定的鲁棒性。由于多个学习器的集成,模型更能应对不同情况下的变化。

  4. 适用于多样的学习器: 集成学习可以利用各种不同类型的学习器,包括决策树、神经网络、支持向量机等。这使得它在不同类型的问题上都有很好的适应性。

  5. 易于并行化: 集成学习的训练过程通常可以并行化,因为每个学习器可以独立地训练。这有助于提高训练效率。

缺点:

  1. 增加计算开销: 集成学习通常需要训练和集成多个学习器,这可能导致较大的计算开销,特别是在大规模数据集和复杂模型的情况下。

  2. 复杂性: 集成学习的模型通常相对复杂,这使得它们不太容易解释。在一些应用场景中,解释性可能是一个重要的考虑因素。

  3. 对参数调整敏感: 集成学习的性能通常对参数的选择和调整比较敏感。需要进行仔细的参数调整以达到最佳性能。

  4. 不适用于所有问题: 集成学习并不总是对所有类型的问题都有效。在一些简单的问题上,单个学习器可能已经足够好,而不需要引入集成学习的复杂性。

  5. 可能受到噪声的影响: 如果训练数据中存在大量噪声,集成学习可能会受到噪声的影响,从而导致模型性能下降。

2.集成学习方法

根据个体学习器的生成方式,目前的集成学习方法大致分为两大类

1.个体学习器间存在强依赖关系、必须串行生成的序列化方法:Boosting(提升法)。

2.个体学习器间不存在强依赖关系、可同时生成的并行化方法:Bagging(装袋法)和“随机森林”(Random Forest)。

1.Boosting(提升法)

Boosting是一族可以将弱学习器提升为强学习器的算法。

算法思路:通过迭代训练一系列弱学习器(通常是决策树或其他简单模型),每一轮都对前一轮的模型进行修正,以提高整体模型的性能。

  1. 训练基学习器:先从初始训练集训练出一个基学习器
  2. 更新样本权重:根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多的关注
  3. 重复迭代:基于调整后的样本训练下一个基学习器,一直重复以上操作,直到基学习器数目达到事先指定的值T
  4. 集成学习:最终将这T个基学习器进行加权结合

 特点:

1.个体学习器之间存在强依赖关系

2.串行生成

3.每次调整训练数据的样本分布

 2.Bagging(装袋法)

这一类方法的核心思想是通过对训练集进行有放回的抽样(Bootstrap抽样),构建多个独立的学习器,然后将它们的预测结果进行平均或投票。著名的算法包括随机森林(Random Forest)。

Bagging(Bootstrap Aggregating)算法的过程包括以下步骤:

  1. Bootstrap抽样: 从原始训练集中有放回地抽取若干个样本,构成一个新的训练子集。这个过程可以重复多次,生成多个不同的子集。

  2. 训练独立的学习器: 对每个生成的子集使用相同的学习算法(可以是决策树、神经网络等),独立地训练一个学习器。由于每个子集都是通过Bootstrap抽样得到的,这些学习器之间具有一定的差异性。

  3. 集成学习: 将所有独立学习器的预测结果进行集成。对于分类问题,可以采用投票的方式,选择获得最多票数的类别作为最终预测结果;对于回归问题,通常采用平均值或加权平均值。

问题:Bagging(Bootstrap Aggregating)算法中的弱学习器必须一样吗?

在Bagging中,弱学习器通常可以是不同的,即它们可以是同一种类型的学习器,也可以是不同种类的学习器。核心思想是通过对训练集进行Bootstrap抽样,得到多个略有不同的训练子集,然后在这些子集上独立地训练弱学习器,最终进行集成。

弱学习器的不同性质可以增加集成模型的多样性,从而提高整体模型的泛化能力。这样的多样性可以通过使用不同的学习算法、不同的参数设置或者在特征选择上的差异来实现。在实际应用中,常常选择同一种学习算法,但在不同的子集上进行训练,以获得差异化的弱学习器。

3.随机森林(Random Forest)

随机森林(Random Forest)是一种基于Bagging思想的集成学习算法,它通过构建多个决策树,并对它们的输出进行平均或投票来提高整体模型的性能。

随机森林算法流程:

  1. Bagging过程: 从原始训练集中使用Bootstrap抽样,生成多个不同的训练子集。(随机抽样)

  2. 构建决策树: 在每个训练子集上独立地训练一个决策树。与传统的决策树不同,随机森林是在每个节点上随机选择一部分特征进行划分的。

  3. 集成决策树: 将所有独立训练的决策树的输出进行平均(回归问题)或投票(分类问题),得到最终的随机森林模型。

优缺点:

随机森林的优点包括:

  • 降低过拟合风险: 通过随机选择特征子集,每个决策树都在不同的特征子空间上进行训练,降低了模型的方差,有助于防止过拟合。

  • 提高泛化性能: 由于集成了多个模型的意见,随机森林通常能够在不同类型的数据集上取得很好的泛化性能。

  • 对于高维数据有效: 随机森林对于高维数据的处理相对较好,因为每个决策树只使用部分特征。

  • 易于并行化: 由于每棵树可以独立构建,随机森林的训练过程容易并行化,适合在大规模数据集上使用。

随机森林的缺点:

  1. 不易解释: 随机森林由多个决策树组成,每个树的决策过程相对独立,导致整个模型的解释性较差。对于一些应用场景,特别是需要理解模型内部逻辑的情况下,随机森林可能不是最佳选择。

  2. 计算开销: 随机森林包含多个决策树,因此在训练和预测时可能需要较大的计算资源。尤其在树的数量很大的情况下,可能会对性能产生一定的影响。

  3. 对于高维稀疏数据效果较差: 随机森林在处理高维稀疏数据(例如文本数据)时,可能不如其他算法表现出色。这是因为在随机选择特征时,可能会错过一些关键的特征。

  4. 样本不平衡: 当数据集存在严重的类别不平衡时,随机森林可能对多数类别的预测性能较好,而对少数类别的预测性能较差。

 3.结合策略

1.平均法

(1)算数平均法

(2)加权平均法

一般个体学习器性能相差较大时用加权平均法,性能相近时用简单平均法。

2.投票法

(1)绝对多数投票法:即若某lable得票过半数,就预测为该lable,否则拒绝预测。

(2)相对多数投票法(少数服从多数):即预测为得票最多的标记。

        若同时有多个标记获最高票,则从中随机选取一个。

(3)加权投票法:和加权平均法一样,每个基学习器的分类票数与权重相乘,最终将各个类别的加权票数求和,最大的值对应的类别为最终类别。

3.学习法

代表:Stacking

Stacking算法的主要思想是利用弱学习器的学习结果作为输入,将初始样本的标记当做样例标记,重新训练新的学习器。

在这种情况下,将弱学习器称为初级学习器,将用于结合的学习器称为次级学习器。

  • 23
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
【摘要】 学习是一切智能系统最根本的特征。机器学习人工智能最具智能特征、最前沿的研究领域之一。机器学习研究的是如何使机器通过识别和利用现有知识来获取新知识和新技能。机器学习就是要使计算机能模拟人的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现自我完善。 与传统统计学相比,统计学习理论是一种专门研究小样本情况下机器学习规律的理论。V.Vapnik 等人从六、七十年代开始致力于此方面研究,到九十年代中期,其理论不断发展和成熟。统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架,它能将很多现有方法纳入其中,同时,在这一理论基础上发展了一种新的通用学习方法——支持向量机(Support Vector Machine 或 SVM),它已初步表现出很多优于已有方法的性能。 本文对机器学习、支持向量机的研究现状及应用领域进行了综述,阐述了机器学习和支持向量机的基本概念、基本模型和支持向量机的训练算法。针对机器学习系统的具体结构,提出了机器学习系统的模块化设计,划分出了输入处理、训练、执行与评价、评价表示 4 个模块,设计了各个模块之间的通信方式,并具体实现了 4 个模块和模块集成系统。 根据基于支持向量机的机器学习的研究成果,研制开发出人脸检测系统,主要包括人脸图像处理和编码、基于支持向量机的机器学习、执行与评价、评价表示功能,实现了人脸的自动判定。 还原 【Abstract】 Learning is the fundamental feather of all intelligent system.machine-learning is a domain with most intelligent feather and a domain with most foreland.machine-learning research how to obtain new knowledge and new technique by recognition and using existing knowledge.machine-learning let computer simulate man’s learning-action,automatically obtain new knowledge and new technique by learn,improve technique,realize own-perfect. To traditional statistics,Statistical Learning Theory is a theory of researching rule of machine-learning under little sample number.From 1960’s,V.Vapnik etc. begin to research this theory.To middle of 1990’s,this theory increasivly improved and completed.Statistical Learning Theory build on a set of stabile theory,offer a united framework to resolve little sample learning question,it can hold lots of existing method,and it build a new currency learning method--Support Vector Machine,Support Vector Machine method had represent better performance than existing method. This article summarize today state and application domain of machine-learning and Support Vector Machine,expound basic concept and basic model of machine-learning and Support Vector Machine and training arithmetic of Support Vector Machine.Aim at structure of machine-learning system,this article put forward module-design of machine-learning system,partition four module:deal-input,train,evaluate and evaluate representation,and design communicate style of each module,realize this four module and module-integration system. On result of researching machine-learning based Support Vector Machine,Face-Detection system is producted.This system mainly include dealing image of man-face and encode,machine-learning based Support Vector Machine,evaluate and evaluate representation,realize automatically judging man-face. 还原
⼤数据整理 ⼤数据整理——数据集成 数据集成 数据集成 数据集成 1.背景: 背景: 因业务需要,事业单位内部普遍构建了多个异构的信息系统,这些信息系统中管理的数据源彼此独⽴、相互封闭,形成"信息孤岛"⽆法形成 快速有效的共享。 2.定义: 定义: 数据集成把⼀组⾃治、异构数据源中的数据进⾏逻辑或物理上的集中,并对外提供统⼀的访问接⼝,从⽽实现全⾯的数据共享。 3.举例: 举例: 杭州市政府⼯作报告中的"最多跑⼀次"改⾰,许多互联⽹应⽤(包括机票、酒店,餐饮,租房,商品⽐价等服务)都是把来⾃不同数据源的 数据进⾏有效集成,对外提供统⼀的访问服务。 4.解决⽅案 解决⽅案 数据源的异构性和⾃治性是数据集成系统⾯临的两个主要挑战。针对这两个挑战,数据集成通常采⽤如下两种解决⽅案。 4.1数据仓库 数据仓库 ⼈们把⼀组⾃治数据源中的数据加载并存储到⼀个物理数据库(称为数据仓库)中,然后在数据仓库上对集成后的数据进⾏后续的操作和分 析。如下图所⽰,基于数据仓库的数据集成系统架构 基于数据仓库的数据集成系统架构 数据仓库技术涉及的技术包括ETL、元数据管理和数据仓库本⾝涉及的技术。 ETL:定期地从各个数据源中抽取(extract)、转换(transform)、加载(load)数据到数据仓库中. 数据仓库:物理数据库,存放从数据源ETL的数据,以供数据应⽤层使⽤。 元数据管理:涉及对数据源的描述、对数据仓库中数据的描述、数据仓库中数据与数据源中数据之间的语义映射。 4.2虚拟集成系统 虚拟集成系统 在虚拟集成系统中,数据保存在原来的数据源中,只在查询时才需要访问。如下图所⽰,基于中间模式的数据集成系统架构。 基于中间模式的数据集成系统架构 虚拟集成系统主要使⽤中间模式建⽴全局数据的逻辑视图,为异构数据源提供⾼层次的数据访问服务。 数据库:提供数据,独⽴性强 封装器: 负责把上层⽤户的查询转发到数据源,并把数据源返回的结果转发给上层的应⽤ 中间模式:向下协调各数据源系统,向上为访问集成数据的应⽤提供统⼀数据模式和数据访问的通⽤接⼝。 元数据:维护数据源的基本信息以及中间模式到数据源之间的语义映射等。 4.3 技术细节 技术细节 ⽆论是基于数据仓库还是基于中间模式的数据集成系统,都需要完成实体与关联抽取、模式匹配(schema matching)、实体对齐(record linkage或entity resolution)和实体融合(data fusion)这4个步骤。 4.3.1 实体与关联抽取 实体与关联抽取 ⾯向结构化数据的实体与关联抽取技术⽐较直观,⾯向⾮结构化数据的实体与关联抽取****可参考第4.1节。** 4.3.2 模式匹配 模式匹配 模式匹配主要⽤于发现并映射两个或多个异构数据源之间的属性对应关系,在⼤规模数据背景下尤为重要。⽬前,基于朴素贝叶斯、 stacking等机器学习算法的模式匹配得到了⼴泛的研究,并在某些特定领域得到了良好的应⽤。基于模式匹配,实体对齐的⽬标是根据匹配 属性的记录特征,将数据源中指代同⼀实体的记录连接起来。 4.3.3 实体对齐 实体对齐 实体对齐主要分为3个步骤:获取候选集、成对匹配、聚簇处理。⼴义地说,实体对齐的⽅法可以划分为⽆监督学习和有监督学习。随着⼈ ⼯智能技术的发展,基于决策树、Logistic回归、⽀持向量机(sup port vector machine,SVM)的机器学习⽅法以及基于词向量(word embedding)的深度学习⽅法被应⽤于实体对齐,以提⾼算法的性能。 4.4.4 实体融合 实体融合 实体对齐可以把⼀组数据源中同⼀实体的不同记录连接起来,由于数据质量问题,这些记录在描述同⼀实体时可能存在数据冲突,例如同⼀ 个⼈的住址在不同数据源之间的描述可能是不⼀样的。 因此,在数据集成的最终环节中,实体融合旨在消除不同数据源之间同⼀个实体属性值的冲突,将不同的数据信息进⾏综合,从⽽提取出统 ⼀、丰富、⾼精度的数据。实体融合的主要⽅法包括基于规则的⽆监督学习、结合标注数据的半监督学习等。虽然基于标注数据的半监督学 习在精度、召回率等⽅⾯均获得了令⼈满意的效果,但是其最⼤的挑战在于带标签训练数据的获取往往需要耗费较⼤的⼈⼒和物⼒。如何利 ⽤主动学习获取训练数据以降低研究代价,是当前学术界和⼯业界研究的热点话题。
很高兴看到中国在机器学习(MachineLearning,ML)领域所取得的进展。随着机器学习的推出和普及,它被嵌入到许多应用中。它成功地以无形、内嵌的方式存在于众多应用中,很多人都在日常生活中使用它,但是并没有意识到它的存在。从在百度中输入一个搜索词到预约一次滴滴打车,这些操作都是基于多层机器学习应用构建的。   在我们的生活中,机器学习确实无处不在,它增加了价值,产生了积极的经济效应,同时减少了低效和浪费。这是由多方面的因素推动形成的,包括显著改进的神经网络(NN)框架,成熟的机器学习技术,改善的训练数据访问方法,当然还有一点很重要的就是,性能更佳的、嵌入在边缘和终端用于训练的专用集成电路(ASIC)。再加上更好的机器学习训练算法——在一些情况下可以将训练时间从数周减少到数小时,机器学习正变得越来越可行。   我们现在看到的是,即使没有连接到云端,也可以在边缘以卓越的帧率(每秒的推理次数)执行推理,而放在几年前,这只有在数据中心才可以实现。由于推理可以在边缘进行,因此开启了更多的机会。   中国市场已经受益于对机器学习人工智能(AI)的长期关注与持续投资,并造就了多种高效的机器学习框架,例如百度飞桨(PaddlePaddle,即PArallelDistributedDeepLEarning,并行分布式深度学习),华为的MindSpore和旷视科技的Brain++。此外,阿里巴巴也投资打造了阿里云城市大脑,旨在支持智慧城市的运行,并通过其下属的芯片设计企业平头哥半导体投身于人工智能芯片的研发。   无论从大学、研究者,还是从蓬勃发展的企业部门来看,中国在机器学习著作和专利方面都处于领先地位,我们正在见证中国在所有领域展示其成熟的机器学习创新、开发和应用能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三三木木七

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值