机器学习基础---集成学习---Bagging & Stacking方法

最新推荐文章于 2023-08-28 15:50:24 发布

Guanxiong He

最新推荐文章于 2023-08-28 15:50:24 发布

阅读量275

点赞数 2

分类专栏：机器学习基础文章标签：集成学习机器学习人工智能

本文链接：https://blog.csdn.net/jkgghvfuj/article/details/121316784

版权

机器学习基础专栏收录该内容

20 篇文章 5 订阅

订阅专栏

Bagging & Stacking方法

Bagging方法（Bootstrap Aggregating 自助聚合）

核心思想

基于一个数据集训练多个学习器，预测新样本时综合所有模型的预测结果作为最终结果
一般选择同质学习器，通过自助采样的方法基于样本数据集构建多个子数据集，每个学习器在不同子数据集上进行训练

模型表示

令 $h_i(x)$ 是基于自助采样 $D_{bsi}$ 训练得到的同质学习器
分类模型可以表示为：
$H(x)=\underset{y}{argmax}\ P(h(x)=y)$
即取各个学习器预测结果中出现最多的类别（投票）
回归模型可以表示为：
$H(x)=E_{D_{bs}}[h(x)]$
即取各个学习器预测结果的均值

优化原理

多个学习器的共同决策有助于降低误差
- 以二分类问题为例
- 假设真实函数为 $f$ ，每个基分类器存在独立的泛化误差 $\epsilon$ ，即对基分类器 $h_i$ ，有预测错误概率：
  $P(h_i(x)≠f(x))=ϵ$
- 结合T个分类器
  $H(x)=sign(\sum_{i=1}^Tℎ_i(x))$
- 集成后，只有一半以上基分类器预测错误时H才会犯错，结合hoeffding不等式，泛化误差为
  $P(H(x)\neq{f(x)})=\sum_{k=1}^{T/2}C_T^k(1-\epsilon)^{k}\epsilon^{T-k}\leq{e^{-\frac12T(2\epsilon-1)^2}}$
  即随集成规模T的增大，泛化误差以指数形式下降
学习器种类的选取：选择不稳定的分类器（对训练数据敏感）
- 集成不稳定学习器可以显著降低方差
- 以回归方法为例：
  $\begin{aligned} &H(x)=E_{bs}[h(x)]\\ ==>\ &f(x)-H(x)=E_{bs}[f(x)-h(x)] \end{aligned}$
  由不等式 $(E(x)^2\leq{E(x^2)})$ ：
  $(f(x)−H(x))^2=(E_{bs}[f(x)-h(x)])^2\leq{E_{bs}[(f(x)-h(x))^2]}$
  即， $H (x)$ 的均方差小于 $h (x)$ 的均方差，该差距来源于：
  $E_{D_{bs}}[h(x)]^2<E_{D_{bs}}[h(x)^2]$
  可以理解为 $H (x)$ 在集成不同基学习器时，对方差的降低来源于不同基学习器之间方差的差距，只有自助采样产生的不同学习器之间差距很大时，bagging集成才能带来很大的提升
  
  即，Bagging方法选择不稳定的分类器才会有更好的效果
具体方法
- 随机森林
  - Bagging方法中，每个基分类器的不同来自于自助采样产生的样本集不同
  - 随机森林引入了随机特征选择，除了样本集的采样，在每棵决策树生成，选择分割点的时候，先对特征进行一次随机采样，再在取出的特征子集上进行分割点选取
  - 由于加入了特征选择机制，随机森林在训练阶段比bagging算法更快（考虑的特征减少），且决策边界更加灵活（泛化性更好）