集成学习(Ensemble Learning)综述

最新推荐文章于 2024-09-25 01:18:16 发布

Johnson0722

最新推荐文章于 2024-09-25 01:18:16 发布

阅读量7.8k

点赞数 2

分类专栏：机器学习文章标签：机器学习集成学习 bagging GBDT stacking

本文链接：https://blog.csdn.net/John_xyz/article/details/79602365

版权

机器学习专栏收录该内容

16 篇文章 4 订阅

订阅专栏

集成学习简单理解就是指采用多个分类器对数据集进行预测，从而提高整体分类器的泛化能力。
集成学习有两个流派，一个是boosting派系，它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派，它的特点是各个弱学习器之间没有依赖关系，可以并行拟合。

1. Bagging

Bagging算法（Bootstrap aggregating，引导聚集算法），又称装袋算法，是机器学习领域的一种集成学习算法。

算法思想：

For t = 1, 2, …, T Do
从数据集S中取样（放回选样）
训练得到模型 $H_t$
对未知样本 $X$ 分类时,每个模型 $H_t$ 都得出一个分类，得票最高的即为未知样本 $X$ 的分类;
对于数值类的回归预测问题，通常使用的结合策略是平均法，也就是说，对于若干和弱学习器的输出进行平均得到最终的预测输出。

1.1随机森林

随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法

算法思想：

用 $N$ 来表示训练用例（样本）的个数， $M$ 表示特征数目。
输入特征数目 $m$ ，用于确定决策树上一个节点的决策结果；其中 $m$ 应远小于 $M$ 。
从 $N$ 个训练用例（样本）中以有放回抽样的方式，取样 $N$ 次，形成一个训练集（即bootstrap取样），并用未抽到的用例（样本）作预测，评估其误差。
对于每一个节点，随机选择 $m$ 个特征，决策树上每个节点的决定都是基于这些特征确定的。根据这 $m$ 个特征，计算其最佳的分裂方式。
每棵树都会完整成长而不会剪枝（Pruning，这有可能在建完一棵正常树状分类器后会被采用）

2.Boosting

2.1 Adaboost

AdaBoost，是英文”Adaptive Boosting”（自适应增强）的缩写。AdaBoost方法的自适应在于：前一个分类器分错的样本会被用来训练下一个分类器。AdaBoost方法对于噪声数据和异常数据很敏感。但在一些问题中，AdaBoost方法相对于大多数其它学习算法而言，不会很容易出现过拟合现象。AdaBoost方法中使用的分类器可能很弱（比如出现很大错误率），但只要它的分类效果比随机好一点（比如两类问题分类错误率略小于0.5），就能够改善最终得到的模型。而错误率高于随机分类器的弱分类器也是有用的，因为在最终得到的多个分类器的线性组合中，可以给它们赋予负系数，同样也能提升分类效果。
AdaBoost方法是一种迭代算法，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率。每一个训练样本都被赋予一个权重，表明它被某个分类器选入训练集的概率。如果某个样本点已经被准确地分类，那么在构造下一个训练集中，它被选中的概率就被降低；相反，如果某个样本点没有被准确地分类，那么它的权重就得到提高。通过这样的方式，AdaBoost方法能“聚焦于”那些较难分（更富信息）的样本上

步骤：

假设有 $n$ 个样本， $D:\{(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)\}$ , $x$ 是特征向量, $y\in\{-1,1\}$ 是标签
1. 初始化样本 $D:\{(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)\}$ , $x$ ， $k_{max}$ （最大循环次数），样本分布 $W_k(i)=1/n，i=1,...,n$
2. $k = 0$
3. $do$ $k ← k+1$
4. 训练使用按照 $W_k(i)$ 采样的 $D$ 的弱分类器 $C_k$
5. $E_k$ ←计算弱分类器 $C_k$ 的训练误差, 如果 $E_k > 0.5$ , 则continue
6. $\alpha _{k}\gets {\tfrac {1}{2}}\ln {\frac {1-E_{k}}{E_{k}}}$ , 这里 $\alpha_{k}$ 就是该分类器的权重
7. 改变样本的分布，提高错分样本的概率，降低正确分类样本的概率 $W_{k+1}(i)\gets {\dfrac {W_{k}(i)}{Z_{k}}}\times {\begin{cases}e^{-\alpha _{k}},&{\mbox{if }}h_{k}(x^{i})=y_{i}\\e^{\alpha _{k}},&{\mbox{if }}h_{k}(x^{i})\neq y_{i}\end{cases}}$
8. $until$ $k=k_{max}$
9. $return$ $C_k$ 和 $α_k$ ， $k=1，...，k_{max}$ （带权值分类器的总体）
10. $end$

2.2 Gradient Boosting

2.2.1 Boosting Tree

首先，提升树模型其实就是决策树的加法模型，表现为

fM(x)=∑Mm=1T(x;θm) f M ( x ) = ∑ m = 1 M T ( x ; θ m ) $f_M(x) = \sum_{m=1}^MT(x; \theta_m)$
其中，

T(x;θm) T ( x ; θ m ) $T(x;\theta_m)$ 表示决策树，

θm θ m $\theta_m$ 为树的参数,

M为树的个数 M 为树的个数 $M为树的个数$

回归提升树的分布算法如下：

f0(x)=0 f 0 ( x ) = 0 $f_0(x) = 0$

fm(x)=fm−1(x)+T(x;θm),m=1,2,3,...,M f m ( x ) = f m − 1 ( x ) + T ( x ; θ m ) , m = 1 , 2 , 3 , . . . , M $f_m(x) = f_{m-1}(x) + T(x;\theta_m), m = 1,2,3,...,M$

fM(x)=∑Mm=1T(x;θm) f M ( x ) = ∑ m = 1 M T ( x ; θ m ) $f_M(x) = \sum_{m=1}^MT(x;\theta_m)$

给定当前模型 $f_{m-1}(x)$ ,需要求解第 $m$ 颗树的参数:

{\hat{θ}}_{m} = a r g m i n_{θ_{m}} \sum_{i = 1}^{N} L (y_{i}, f_{m - 1} (x_{i}) + T (x_{i}; θ_{m}))

$\hat{\theta}_m = argmin_{\theta_m}\sum_{i=1}^N L(y_i, f_{m-1}(x_i)+T(x_i;\theta_m))$

N N $N$ 代表总共有

N

$N$ 个样本。通过上式，从而得到

θ̂ m θ ^ m $\hat{\theta}_m$ , 即第

m m $m$ 颗树的参数
如果使用平方误差损失函数

L (y, f (x)) = (y - f (x))^{2}

$L(y, f(x)) = (y-f(x))^2$ ，其损失变为

L(yi,fm−1(xi)+T(xi;θm)) L ( y i , f m − 1 ( x i ) + T ( x i ; θ m ) ) $L(y_i, f_{m-1}(x_i)+T(x_i;\theta_m))$

=(yi−fm−1(xi)−T(xi;θm))2 = ( y i − f m − 1 ( x i ) − T ( x i ; θ m ) ) 2 $=(y_i-f_{m-1}(x_i)-T(x_i;\theta_{m}))^2$

=(r−T(xi,θm))2 = ( r − T ( x i , θ m ) ) 2 $=(r-T(x_i,\theta_m))^2$

其中， $r=y-f_{m-1}(x)$ , 即残差，可以理解为是当前模型 $f_{m-1}(x)和真是样本之间的误差$
所以，对于回归问题的Boosting Tree来说，每一步只需要拟合当前模型的残差即可。

2.2.2 GBDT(Gradient Boosting Decision Tree)

boosting Tree 提升树利用加法模型实现优化过程时，当损失函数是平方损失函数时，每一步的优化很简单。但对于一般损失函数而言，往往每一步的优化没那么简单，所以引入了梯度提升（Gradient Boosting）算法。

GBDT的目标函数

对于普通的机器学习模型而言，其目标函数可以定义为如下：

obj:∑ni=1l(yi,ŷ i)+∑Kk=1Ω(fk) o b j : ∑ i = 1 n l ( y i , y ^ i ) + ∑ k = 1 K Ω ( f k ) $obj: \sum_{i=1}^nl(y_i,\hat{y}_i) + \sum_{k=1}^K\Omega(f_k)$

其中 $n$ 代表有 $n$ 个样本。前面一项是loss函数，后面一项是正则项。
综合上述加法模型的计算过程，在第 $t$ 步，其目标函数是：

o b j^{(t)} : \sum_{i = 1}^{n} l (y_{i}, {\hat{y}}_{i}^{t}) + \sum_{i = 1}^{t} Ω (f_{i})

$obj^{(t)}: \sum_{i=1}^nl(y_i,\hat{y}_i^t) + \sum_{i=1}^t\Omega(f_i)$

=∑ni=1l(yi,ŷ t−1i+ft(xi))+Ω(ft)+constant = ∑ i = 1 n l ( y i , y ^ i t − 1 + f t ( x i ) ) + Ω ( f t ) + c o n s t a n t $=\sum_{i=1}^nl(y_i,\hat{y}_i^{t-1}+f_t(x_i)) + \Omega(f_t) + constant$

此时，优化该目标函数，就能得到 $f_t(x_i)$

负梯度的理论支撑

前面第提到Gradient Boosting时，提及Gradient Boosting以负梯度代替残差来求解基函数，实际上，负梯度的理论支撑则是泰勒公式的一阶展开。即

f(x+Δx)=f(x)+f′(x)Δx f ( x + Δ x ) = f ( x ) + f ′ ( x ) Δ x $f(x+\Delta x) = f(x) + f'(x)\Delta x$

对于在第 $t$ 步的目标函数，对 $l(y_i,\hat{y}_i^{t-1}+f_t(x_i))$ 做一阶泰勒展开，其中\hat{y}_i^{t-1}相当于泰勒上述公式的 $x$ , 而 $f_t(x_i)$ 相当于是 $\Delta x$ ，我们展开得到：

l(yi,ŷ t−1i+ft(xi))=l(yi,ŷ t−1i)+gift(xi) l ( y i , y ^ i t − 1 + f t ( x i ) ) = l ( y i , y ^ i t − 1 ) + g i f t ( x i ) $l(y_i,\hat{y}_i^{t-1}+f_t(x_i)) = l(y_i, \hat{y}_i^{t-1}) + g_if_t(x_i)$

其中， $g_i$ 是 $l(y_i, \hat{y}_i^{t-1})$ 关于 $\hat{y}_i^{t-1}$ 的一阶导数
此时，目标函数（不考虑正则项）变成：

obj(t):∑ni=1l(yi,ŷ ti)=∑ni=1l(yi,ŷ t−1i)+gift(xi) o b j ( t ) : ∑ i = 1 n l ( y i , y ^ i t ) = ∑ i = 1 n l ( y i , y ^ i t − 1 ) + g i f t ( x i ) $obj^{(t)}: \sum_{i=1}^nl(y_i,\hat{y}_i^t) = \sum_{i=1}^nl(y_i,\hat{y}_i^{t-1}) + g_if_t(x_i)$

obj(t−1):∑ni=1l(yi,ŷ t−1i) o b j ( t − 1 ) : ∑ i = 1 n l ( y i , y ^ i t − 1 ) $obj^{(t-1)}: \sum_{i=1}^nl(y_i,\hat{y}_i^{t-1})$

我们肯定希望目标函数每步的loss都减小的，即 $Obj^{(t)} < Obj^{(t-1)}$ ，那么关键就在于 $g_if_t(x_i)$ 这一项了。因为我们不知道到底是正还是负，那么只需让 $f_t(x_i) = -\alpha_ig_i$ （ $\alpha$ 是我们任取的一个正系数）就能 $g_if_t(x_i)$ 让一直恒为负了。