机器学习(五)监督学习---集成学习基本概念

本文链接：https://blog.csdn.net/qq_40520596/article/details/105724828

集成学习基本了解

1. 为什么需要集成学习
2. Bagging

基本概念： 给定我们一个原始训练样本集，我们将其拆分为多份，分别对每份样本集建立一个分类器(一般是弱分类器)，分类器之间相互独立，最后再将分类器进行结合，因此 集成学习 有时候被称为 多分类器系统。
在这里插入图片描述

在这里插入图片描述

1. 为什么需要集成学习

弱分类器：精度不高，比随机分类略好一些，学习起来很方便；
强分类器：精度很高，但是优化起来非常复杂。

其实强弱是相对来说，能够迅速正确的识别的过程就是强分类器，而容易出错的则是弱分类器。强分类器可以由多个弱分类器组成。而集成学习就能将多个弱分类器转化为一个强分类器。

Eg. 举个例子来说明集成学习的好处
在这里插入图片描述
上图可以看出，最后的结果采用投票的方式(少数服从多数)，所以有13个分类器输出错误，那么最后结果也会出错，因此整个系统的错误率如上式，最后得出错误率为6%；本来个体分类器正确率只有65%，最后结合后正确率达到94%。

※ 目前集成学习方法大致可分为两类：

Boosting（十大经典算法之一）
1.1 Adaboost
1.2 GBDT(Gradient Boosting Decision Tree)
Bagging
2.1 Bootstrap Aggregating
2.2 Random Forest

2. Bagging

给定一个训练数据集，然后对训练样本进行采样，产生多个不同的子集，再从每个子集中训练出一个基学习器。如果采样出来的每个子集都完全不同，说明每个基学习器只用到了一小部分数据，显然得到的基学习器效果不会太好。为解决这个问题，采用相互有交叠的采样子集。

Bagging如何采样： 先随机采样一个样本放入采样集中，取出后再放回到初始数据集，接着进行下次的随机采样，即有放回的采样。
在这里插入图片描述
上图的Function可以是线性回归、决策树等等。

对于投票方式也有以下几种：
在这里插入图片描述

解析：

Majority Voting：这五个分类器输出的概率C₂最大占3个，所以C₂=3；
Weighted Majority Voting：这五个分类器输出的概率C₂最大占3个，将这3个的权重相加作为结果，所以C₂=0.25+0.20+0.10=0.55；
Weighted Average：C₁=0.30×0.85+0.25×0.3+0.20×0.2+0.10×0.1+0.15×0.1=0.395。