机器学习:集成学习笔记

简介

机器学习的目标是训练出一个稳定且预测准确的学习器(模型),但实际训练得到的学习器经常是有偏好的(即在某些方面表现较好)。集成学习通过将多个学习器组合在一起,以期望获得比单个学习器更好的整体性能。

核心思想

通过结合多个弱学习器的预测结果来产生一个强学习器,从而提高模型的泛化能力和稳定性,获得准确且稳定的预测结果。

相关术语

基学习器:是构成集成的单个学习算法。在集成学习中,通常会生成多个这样的学习器。基学习器可以是决策树、神经网络、支持向量机等任何类型的学习算法。

弱学习器:是指性能略优于随机猜测的模型。在集成学习中,多个弱学习器可以通过合适的方法结合起来,以产生更强大的集成模型。

强学习器:是指单独的或由多个基学习器组成的集成模型,其性能显著优于弱学习器。

泛化能力:是机器学习和统计学中的一个核心概念,指的是模型对于新、未见过的数据的适应和预测能力。一个具有良好泛化能力的模型能够在新数据上表现得和在训练数据集上一样好,这意味着它能够准确地捕捉到数据的底层模式,而不是仅仅记住或拟合训练数据集的特点(即避免了过拟合)。

算法构建

由 构建基学习器 和 模型融合 两部分组成。

1.构建基学习器

即生成一系列基学习器的过程:

1.1 选择基学习器:选择弱学习器或基学习器是集成学习的第一步。基学习器可以是任何在任务上略优于随机猜测的学习算法,常见的包括决策树、支持向量机、神经网络等。不同的基学习器之间应该具有一定的多样性,以确保集成的效果。

1.2 训练基学习器:每个基学习器都在不同的数据子集或样本上进行训练。在 Bagging 中,通常是通过有放回的随机抽样(bootstrap sampling)获得不同的训练集。在 Boosting 中,每个学习器的训练集都依赖于前一个学习器的性能,更关注前一轮中被错误分类的样本。

1.3 基学习器须满足以下两个基本条件:①准确性 ≥ 50%,即优于随机猜测;②具有多样性,即学习器间彼此存在差异。(通过引入不同的学习算法、不同的训练数据或不同的特征子集来提高多样性)

2.模型融合

即组合所有的基学习器,有利于防止过拟合和欠拟合。

2.1 Bagging 的模型融合:对于 Bagging 类型的集成学习,模型融合是通过平均(对于回归问题)或投票(对于分类问题)来实现的。每个基学习器的输出被整合成最终的集成输出。特点是:模型的泛化能力强,但不一定是最好的模型。

2.2 Boosting 的模型融合:Boosting 类型的集成学习中,模型融合是通过对每个基学习器赋予不同的权重,或通过不同的方式组合基学习器的输出来实现的。例如,AdaBoost通过迭代加大被错误分类的样本的权重,而Gradient Boosting通过使用残差来训练后续的学习器。

2.3 Stacking 的模型融合:在 Stacking 中,构建一个元模型(meta-model)来组合基学习器的输出。首先,基学习器在训练集上产生预测结果,然后这些结果作为输入被用于训练元模型。元模型学习如何组合基学习器的预测以获得最终的集成输出。

模型融合的目标是在多个学习器的贡献下提高整体性能,通过组合不同学习器的优势,克服单个学习器的局限性,提高泛化能力和鲁棒性。在选择和构建基学习器以及进行模型融合时,需要综合考虑任务的性质、数据的特点以及计算资源的限制。

3.集成方法

包括 Bagging、Boosting 和 Stacking。

3.1 Bagging(Bootstrap Aggregating):通过对训练数据进行有放回的随机抽样(bootstrap sampling),构建多个独立的弱学习器,然后将它们的预测结果进行平均(对于回归问题)或投票(对于分类问题)来得到集成模型。随机森林就是Bagging的一个例子。

3.2 Boosting:Boosting方法是通过迭代训练弱学习器,每一轮都根据前一轮的错误来调整样本权重,使得模型对前一轮预测错误的样本有更高的关注度。常见的Boosting算法包括 AdaBoost、Gradient Boosting 和 XGBoost。

3.3 Stacking:Stacking是一种更高级的集成方法,它不仅仅是平均或投票,而是使用另一个模型来学习如何结合基础模型的预测。通过在一个元模型上训练,它可以学习不同基础模型的权重和/或结合策略。

示意图

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值