机器学习——多模型选择和融合的方法(Validation & Blending & Bagging)

最新推荐文章于 2024-04-07 17:52:53 发布

daocaoren_

最新推荐文章于 2024-04-07 17:52:53 发布

阅读量1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/daocaoren_/article/details/100099847

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

在学习这之前，先来看一个衡量泛化误差的方法——偏差-方差分解(bias-variance decomposition)。

一个机器学习模型的泛化误差主要由3个部分组成，即：偏差(bias)，方差(variance)和噪声(nosie)，

泛化误差=bias + variance + noise

若有一个数据集 $D$ ， $D$ 中有一堆测试样本 $x$ ，其对应的标签集为 $y_D$ ，而其对应的正式标签(ground truth)为 $y$ ，而 $f (x; D)$ 为训练集 $D$ 上学得的模型 $f$ 在 $x$ 上的预测输出。

若以回归任务为例，则学习算法的期望预测为，
$\mathop f\limits^ - (x) = {E_D}(f(x;D))$
则使用样本数相同的不同训练集产生方差(variance) 为，
${\mathop{\rm var}} (x) = {E_D}({(f(x;D) - \mathop f\limits^ - (x))^2})$
这里的方差描述的实际上还是一个算法当使用不同的数据集时，其在均值附近的波动程度。若方差大，则说明该算法在数据集变化后，输出变化也比较大，不稳定，发生了过拟合。
而偏差(bias) 描述的是期望输出与真实值之间的差别，
$bia{s^2}(x) = {(\mathop f\limits^ - (x) - y)^2}$
可以看出，当偏差较大时，算法的期望预测值偏离真实值较多，发生了欠拟合。
这里的噪声(noise) 其实描述的是数据集上的属性，即数据集上弄错的样本，因为数据集本身的获取也是有可能出现错误的。数据集的标签 $y_D$ 与真实值 $y$ 的差别为噪声，
${\varepsilon ^2} = {E_D}({({y_D} - y)^2})$

为了方便分析，可以假定数据集全是与真实值相符合的样本( $y_D=y$ )，即噪声为0， ${\varepsilon } = {E_D}{({y_D} - y)=0}$ ，则算法的期望泛化误差可以分解如下，
$\begin{array}{l} E(f;D) = {E_D}[{(f(x;D) - {y_D})^2}]\\\\ \;\;\;\;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \;{E_D}[{(f(x;D) - \mathop f\limits^ - (x) + \mathop f\limits^ - (x) - {y_D})^2}]\\\\ \;\;\;\;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \;{E_D}[{(f(x;D) - \mathop f\limits^ - (x))^2}] + {E_D}[{(\mathop f\limits^ - (x) - {y_D})^2}] + \underbrace {{E_D}[2(f(x;D) - \mathop f\limits^ - (x))(\mathop f\limits^ - (x) - {y_D})]}_{ = 0}\\\\ \;\;\;\;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \;{E_D}[{(f(x;D) - \mathop f\limits^ - (x))^2}] + {E_D}[{(\mathop f\limits^ - (x) - {y_D})^2}]\\\\ \;\;\;\;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \;{E_D}[{(f(x;D) - \mathop f\limits^ - (x))^2}] + {E_D}[{(\mathop f\limits^ - (x) - y + y - {y_D})^2}]\\\\ \;\;\;\;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \;{E_D}[{(f(x;D) - \mathop f\limits^ - (x))^2}] + {E_D}[{(\mathop f\limits^ - (x) - y)^2}] + {E_D}[{(y - {y_D})^2}] + \underbrace {2{E_D}[(\mathop f\limits^ - (x) - y)(y - {y_D})]}_{ = 0}\\\\ \;\;\;\;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \;\underbrace {{E_D}[{{(f(x;D) - \mathop f\limits^ - (x))}^2}]}_{{\rm{variance}}} + \underbrace {{E_D}[{{(\mathop f\limits^ - (x) - y)}^2}]}_{bias} + \underbrace {{E_D}[{{(y - {y_D})}^2}]}_{noise} \end{array}$

接下来，再看一下偏差、方差和噪声的含义，

偏差：预测值和真实值之间的偏离程度，描述了学习算法本身的拟合能力。
方差：度量了同样大小的训练集在发生变动后，其学习性能的变化，描述了数据变动对算法学习性能的影响。
噪声：数据集本身的正确程度，同时这也决定了学习算法所能达到的泛化误差的下界，描述了学习问题本身的学习难度。

当有多个hypotheses ${g_1}, \cdots ,{g_T}$ ，这些hypothesis多样且不同，多样性的原因有以下几个方面：

模型不同： ${g_1} \in {{\rm H}_1},{g_2} \in {{\rm H}_2}, \cdots {g_T} \in {{\rm H}_T}$
其中， ${{\rm H}_i}$ 为模型i的hypothesis set， $g_i$ 是通过最小化 $E_{in}$ 得到的。所以，所选的模型不同，得到的 $g$ 也不同。
求解选取的参数不同：在用梯度下降法(GD)求解模型参数的过程中，学习率 $\eta = 0.001,0.01, \cdots ,10$ ，当 $\eta$ 不同时，所求得的模型解也就不同，得到的 $g$ 也不同。
一些算法具有随机性：之前所说的PLA，就是随机选取错误的分类点来更新模型解的，这种随机性会导致 $g$ 的不同。
数据随机性：做交叉验证时，根据所划分的不同的训练集和验证集，可以得到不同的 $g$ 。

当有了这些形形色色的 $g$ 之后，此时应如何综合以上hypotheses来做出相对科学的预测？

下面有四种方法：

Validation: 加入验证集后，选择一个表现最好(即， $E_{val}$ 最小)的作为预测模型。
${g_{{t_*}}}(x){\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} with{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {t_*} = \arg {\min _{t \in \{ 1,2, \cdots ,T\} }}{E_{val}}(g_t^ - )$
Uniform Blending：综合考虑所有的 $g$ ，且是机会均等的考虑，即每个 $g$ 的权重相同，最后用平均值作为预测值。
- for classification :
  $sign(\sum\limits_{t = 0}^T {1 \cdot {g_t}(x)} )$
- for regression ：
  $\frac{1}{T}\sum\limits_{t = 0}^T {{g_t}(x)}$
Linear Blending：综合考虑所有的 $g$ ，每个 $g$ 的考虑机会不均等，即给每个 $g_t$ 的一个权值 ${\alpha _t}$ ，最后加权平均值作为预测值。
$sign(\sum\limits_{t = 1}^T {{\alpha _t} \cdot {g_t}(x)} )\;\;with\;\;{\alpha _t} \ge 0$
那么，其实可以看出前两种是此种情况的特例，
当 ${\alpha _t} = \left[\kern-0.15em\left[ {{E_{val}}(g_t^ - )\;\;\;smallest} \right]\kern-0.15em\right]$ 时，为第一种情况；
当 ${\alpha _t} = 1$ 时，为第二种情况。
Any Blending(Stacking)：综合考虑所有的 $g$ ，每个 $g$ 的考虑机会不均等，但每个 $g_t$ 之间是一种非线性关系，最后取平均值作为预测值。
$sign(\sum\limits_{t = 1}^T {{q_t}(x) \cdot {g_t}(x)} )\;with\;\;{q_t}(x) \ge 0$
不难看出，第三种情况其实就是此种情况在 ${q_t}(x) = {\alpha _t}$ 时的一个特例。

Validation

这里假设有M个模型，对应有M个hypothesis，即 ${H_1},{H_2}, \cdots ,{H_M}$ ，产生的算法为 ${A_1},{A_2}, \cdots ,{A_M}$ 。由这些演算法，就能得出M个不同的模型解 $g_1,g_2,\cdots,g_M$ 。那么，我们的目标是，如何选择一个最好的模型解 $g_{m^*}$ ，使其 ${E_{out}}({g_{{m^*}}})$ 最小。

下面有几个观点：

$E_{in}$ 最小化：对M个模型分别在数据集D上计算 $E_{in}$ ，再横向比较，取 $E_{in}$ 最小的那个 $g$ 作为最优模型解 $g_{m^*}$ ，
${m^*} = \mathop {\arg \min }\limits_{1 \le m \le M} ({E_m} = {E_{in}}({A_m}(D)))$
但这明显实不科学的，原因由两点：第一， $E_{in}$ 足够小并不能表示模型好，反而可能会使模型过拟合，泛化能力差；第二，它的VC维会很高，计算量大，模型复杂度高。
$E_{test}$ 最小化：在一个独立于训练样本的测试集上，将M个模型在测试集上进行测试，选取 $E_{test}$ 最小的模型作为最佳模型，
${m^*} = \mathop {\arg \min }\limits_{1 \le m \le M} ({E_m} = {E_{test}}({A_m}(D)))$
这种做法是能提高预测性能的，因为根据Hoffding不等式，有，
${E_{out}}({g_{{m^*}}}) \le {E_{test}}({g_{{m^*}}}) + O(\sqrt {\frac{{\log M}}{{{N_{test}}}}} )$ 模型的个数M越少，测试集数目越大，那么上式中的第二项就会很小， ${E_{test}}({g_{{m^*}}})$ 会更加接近于 ${E_{out}}({g_{{m^*}}})$ 。
但由于一般我们能拿到的就只有训练集，测试集是拿不到的，所以此种方法的局限性也比较大。

那么，基于前面两种方法，我们可以把数据集D分为两个部分，从数据集D中抽出K个数据作为验证集 $D_{val}$ ，对应的error叫 $D_{val}$ ，但是 $D_{val}$ 必须保证独立同分布于P(x,y)，即 $D_{val}$ 是从数据集D中平均随机抽样得到的；而另一部分就是供模型选择的训练数据 $D_{train}$ ，大小为 $N - K$ 。

$\begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {E_{in}}(h){\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \;\;\;\;\;{E_{val}}(h){\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \\ \;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \uparrow \;\;\;\;\;\;\;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \uparrow \\\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \underbrace D_{size\;\;N}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \to {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \underbrace {{D_{train}}}_{size\;\;N - K}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \cup {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \underbrace {{D_{val}}}_{size\;\;K}\\\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \downarrow \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} \downarrow \\ {g_m} = {A_m}(D)\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} g_m^ - = {A_m}({D_{train}}) \end{array}$

首先，就是从 $D_{train}$ 中对各个模型进行训练，选择各自最好的模型解，记为 $g_m^-$ ，它是通过在数据集 $D_{train}$ 上最小化 ${E_{train}}$ 得到的。

然后使用 $g_m^-$ 对 $D_{val}$ 进行验证，各个 $g_m^-$ 之间比较 $E_{val}$ 的大小(横向比较)，从M个模型中选择 $E_{val}$ 最小的作为最终的模型，
${m^*} = \mathop {\arg \min }\limits_{1 \le m \le M} ({E_m} = {E_{val}}({A_m}({D_{train}})))$

但是，最后，我们的预测模型解并不是 $g_m^-$ ，因为根据learning cruve，很容易知道，训练样本越多，得到的模型越精确，所以在总样本D上训练得出的 $E_{out}$ 要比在 $D_{train}$ 训练得到的 $E_{out}$ 要小，若总样本D对应的最好的模型解为 $g_{m^*}$ ，则有，
${E_{out}}(\underbrace {{g_{{m^*}}}}_{{A_{{m^*}}}(D)}) \le {E_{out}}(\underbrace {g_{m^*}^ - }_{{A_{{m^*}}}({D_{train}})})$

所以，一般来说，通常的做法就是通过 $D_{val}$ 来选择最好的 $g_m^-$ 对应的模型 $m^*$ ，再用总样本集D使用该模型进行训练，最终得到的解是总样本上的解，即， $g_{m^*}$ 。

各个部分的不等式满足，
${E_{out}}({g_{{m^*}}}) \le {E_{out}}(g_{{m^*}}^ - ) \le {E_{val}}(g_{{m^*}}^ - ) + O(\sqrt {\frac{{\log M}}{K}} )$

那么，接下来，讨论一下如何设置验证集K的大小？
根据上式，有如下关系，
$\begin{array}{l} {E_{out}}(g)\;\;\;\; \approx \;\;\;\;{E_{out}}({g^ - })\;\;\;\; \approx \;\;\;\;{E_{val}}({g^ - })\\ \;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ({\kern 1pt} small{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} K)\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \;({\rm{large}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} K) \end{array}$

当K很小时， $D_{train}$ 与D差别较小， $g_m^ - \approx {g_m}$ ，但是，此时验证集样本数很少， $E_{val}和E_{out}$ 可能差别很大；当K很大时，验证集样本数很大，此时的 $E_{val}$ 可能会非常逼近 $E_{out}$ ，但是， $D_{train}$ 的样本数很少，导致 $g_m^-$ 和 $g_m$ 会相差很大。那么，通常设置 $\frac{N}{5}$ 。

关于划分验证集大小的问题，还有以下两种解决办法，都是用了交叉验证的思想(cross validation)。

留一法交叉验证(Leave-One-Out Cross Validation)
此法每次取验证集大小为1，K=1，即每一只用一组数据对 $g_m^-$ 进行验证。根据前面的分析，这样做的优点就是， $g_m^ - \approx {g_m}$ ，但 $E_{val}和E_{out}$ 可能差别很大。为了避免这种 $E_{val}和E_{out}$ 相差很大，我们每次从D中取一组数据作为 $D_{val}$ ，知道所有样本都被取出作为验证集过，共计算N次，最后对 $D_{val}$ 求平均，得到 ${E_{loocv}}(H,A)$ ，用 ${E_{loocv}}(H,A)$ 代替 $E_{val}$ 最为选取模型m的标准。
${m^*} = \mathop {\arg \min }\limits_{1 \le m \le M} ({E_m} = {E_{loocv}}({H_m},{A_m}))$
这里的 ${E_{loocv}}(H,A)$ 的表达式为，
${E_{loocv}}(H,A) = \frac{1}{N}\sum\limits_{n = 1}^N {{e_n}} = \frac{1}{N}\sum\limits_{n = 1}^N {err(g_n^ - ({x_n}),{y_n})}$
下面分析留一法的可行性，即用 ${E_{loocv}}(H,A)$ 代替 $E_{val}$ ，就可以使得 ${E_{loocv}}(H,A)\approx E_{out}$ 。具体的推导思路如下，
$\begin{array}{l} \mathop \varepsilon \limits_D {E_{loocv}}(H,A) = \mathop \varepsilon \limits_D \frac{1}{N}\sum\limits_{n = 1}^N {{e_n}} = \frac{1}{N}\sum\limits_{n = 1}^N {\mathop \varepsilon \limits_D {e_n}} \\\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \frac{1}{N}\sum\limits_{n = 1}^N {\mathop \varepsilon \limits_{{D_n}} \underbrace {\mathop \varepsilon \limits_{({x_n},{y_n})} err(g_n^ - ({x_n}),{y_n})}_{ = {E_{out}}(g_n^ - )}} \\\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \;\frac{1}{N}\sum\limits_{n = 1}^N {\mathop \varepsilon \limits_{{D_n}} } {E_{out}}(g_n^ - )\\\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \;\frac{1}{N}\sum\limits_{n = 1}^N {{{\bar E}_{out}}(N - 1) = } {{\bar E}_{out}}(N - 1) \end{array}$
假设有不同的数据集D，它的期望分布记为 $\mathop \varepsilon_D$ ，则其 ${E_{loocv}}(H,A)$ 可以通过推导，等于 $E_{out}(N-1)$ 的平均值，由于N-1近似于N，所以 $E_{out}(N-1)$ 的均值也就近似于 $E_{out}(N)$ 均值，即， ${E_{loocv}}(H,A)\approx E_{out}$ 。
V折交叉验证(V-Fold Cross Validation)
上面已经描述了留一法的可行性，但其在实际应用中会面临两个问题。首先，是计算量的问题，如果有N个数据，那么就需要计算N次 $E_{loocv}$ ，再计算平均值，当N非常大时，计算量非常大；第二个问题就是稳定性问题，因为预测本身存在不稳定因素，那么对所有的 $E_{loocv}$ 取平均值可能会带来很大的数值跳动，稳定性不好。针对留一法的缺点，对其缺点进行改进，就得到了V折交叉验证法。
留一法是将N个数据分为N份，那么对应的改进措施就是将N个数据分为V份，计算过程与留一法相似，
${E_{cv}}(H,A) = \frac{1}{V}\sum\limits_{v = 1}^V {E_{val}^{(V)}(g_v^ - )}$
这样做既可以减少计算量，又能得到最好的模型解，其实留一法就是V折交叉验证的一种特殊情况。

所以，一般用V折交叉验证法来选择最佳的模型。但是，因为Validation的数据来源也是样本集中的，所以并能保证最后的效果就一定好，但总体来说，只有样本数越多，越广泛，则Validation的结果就越可信，所选择的模型泛化能力也越强。

Aggregation

Validation是一种选择模型的方法，注意是选择，Selecting，它并不能把各个模型的优势结合起来，而这里的Blending和Bagging都是模型融合(aggregation)的方法。Aggregation的思想简单来说就是博采众长，将各个模型的长处结合起来，使最终的预测性能提高。

下面说明一下为什么Aggregation可以提高预测效果。
在这里插入图片描述
上图所示，平面上面分布着一些待分类的数据点，而图中有3条灰色的水平或垂直的直线，这些就是不同的模型求解出来的，即， $g_m$ 。那么，如果我们采用validation的方法，就会发现，无论选这3条中的哪一条，都会出现误分类的点，其效果并不好；所以，如果综合这3条水平或垂直的直线，组成如上图所示的黑色的折线，这样预测效果很明显有了提高。

从这个角度来看，通过aggregation得到的预测模型其边界更加的复杂，起到了特征转换(feature transform)的作用。
在这里插入图片描述
上图中，同样是平面上分布着一些待分类的数据点，使用PLA算法，可以得到图中许多灰色的分类线。那么，通过aggregation，比如接下来要说的blending方法，就可以得到图中的黑色分类线。这条黑色线其实与SVM得到的直线比较接近，它代表了距离所有点都比较远的那条直线，是一种中庸的、适合的分类线。
从这个角度看，aggregation起到了正则化的效果，它让最终的预测模型更加具有代表性。

对于单一的模型而言，一般feature transform和regularization是矛盾的。即，通过feature transform之后的分类面往往更加复杂，会过拟合，即开头说过的方差(variance)较大；而通过regularization之后，会使得分类面趋向简单，而简单的分类面往往会造成许多的点没有正确分类，即开头所说的偏差(bias)较大。但是，在这里，通过不同的模型的融合(aggregation)，就有可能同时兼顾feature transform和regularization这两种属性，从而得到不错的预测模型。

Blending

假设有T个不同的模型得到T个不同的 $g_t$ ，blending就是将他们进行整合以及合并，来得到最佳模型的过程。

Blending是一种基于投票(Voting)的思想。对于每个 $g_t$ 给予相同的权重，就叫uniform blending，类似于给每个 $g_t$ 一票；对于每个 $g_t$ 给予不同的权重，就叫non-uniform blending，类似于给不同的 $g_t$ 投的票数不同。而在non-uniform blending里，若投的票数为定值，则为linear blending；若投的票数为变量(用一个函数表示)，则为any belnding，又叫做Stacking。

Uniform Blending
在blending过程中，对每个 $g_t$ 赋予相同的权重1就是uniform blending。

用在分类(calssification) 问题中，最终的预测模型 $G (x)$ 的表达式为，
- 二分类
  $sign(\sum\limits_{t = 1}^T {1 \cdot {g_t}(x)} )$
- 多分类
  $\mathop {\arg \min }\limits_{1 \le k \le K} \sum\limits_{t = 1}^T {\left[\kern-0.15em\left[ {{g_t}(x) = k} \right]\kern-0.15em\right]}$

下面分析一下Uniform Blending用在分类问题中的可行性。分三种情况讨论：第一种，每个 $g_t$ 的表现都一样，这跟选其中任意一个 $g_t$ 的效果都相同；第二种，每个 $g_t$ 都有一些差别，此时，通过blending的方式可以使多数的意见修正少数的意见，即，少数服从多数，从而获得较好的结果；第三种，在多分类问题中，选择票数多的那一类为最终的预测结果。

用在回归(regression) 问题中，最终的预测模型 $G (x)$ 就是对所有的 $g_t$ 求平均值，
$\frac{1}{T}\sum\limits_{t = 1}^T {{g_t}(x)}$
下面分析一下Uniform Blending用在回归问题中的可行性。计算 $g_t$ 的平均值可能比计算单一的 $g_t$ 更加稳定，更准确。原因可以根据开头提到的bias-variance 理论来解释，
$\underbrace {E(f;D)}_{{E_{out}}({g_t})} = \underbrace {{E_D}[{{(f(x;D) - \mathop f\limits^ - (x))}^2}]}_{{\rm{variance}}} + \underbrace {{E_D}[{{(\mathop f\limits^ - (x) - y)}^2}]}_{{E_{out}}(G)} + \underbrace {{E_D}[{{(y - {y_D})}^2}]}_{noise}$
上式中，左边的一项表示的是单个模型的期望泛化误差，记为 $E_{out}(g_t)$ 。右边第一项表示的是方差，含义是不同的 $g_t$ 之间的差距是多少。右边第二项表示的是平均化后的G的泛化误差，记为 $E_{out}(G)$ 。右边第三项为数据噪声，不考虑。
在准确度的角度来说， ${E_{out}}({g_t}) \ge {E_{out}}(G)$ ，G的泛化误差小；从稳定性的角度来说，通过平均化求得的G，使得右边第一项方差的值变小，从而获得更加稳定的表现。

Linear Blending

当给予每个 $g_t$ 的权重 ${\alpha _t}$ 不同时，其中 ${\alpha _t} \ge 0$ ，最终的预测结果是所有 $g_t$ 的线性组合。
$sign(\sum\limits_{t = 1}^T {{\alpha _t} \cdot {g_t}(x)} )\;\;with\;\;{\alpha _t} \ge 0$
怎么求解 ${\alpha _t}$ 的值，方法类似于线性回归，通过最小化Square Error，即 $\mathop {\min }\limits_{{\alpha _t} \ge 0} {E_{in}}(\alpha )$ ，式子如下，
$\mathop {\min }\limits_{{\alpha _t} \ge 0} \frac{1}{N}\sum\limits_{n = 1}^N {{{({y_n} - \sum\limits_{t = 1}^T {{\alpha _t}{g_t}({x_n})} )}^2}}$

如何求解上式？不知道如何求解的话，那么可以对比一下下面的式子，
$\mathop {\min }\limits_{{w_i}} \frac{1}{N}\sum\limits_{n = 1}^N {{{({y_n} - \sum\limits_{i = 1}^{\tilde d} {{w_i}{\phi _i}({x_n})} )}^2}}$
这个式子，很熟悉，即，线性回归+特征转换。对比两两个式子，可以发现blending中的 $g_t$ 可以看作是特征转换，而blending中带求解的参数 ${\alpha _t}$ 也就是线性回归中带求解的参数 $w_i$ ，区别是blending中的参数有限制， ${{\alpha _t} \ge 0}$ ，总结起来，可以把其中的关系表示为，
$\;\;blending=LinModel\;\;+\;\;hypotheses(fecture\;\;transform)\;\;+\;\;constraints$
那么，这里的限制其实是可以去掉的，因为 ${\alpha _t} < 0$ 并不会影响分类的效果，只需要将该点的正类看作负类，负类看作正类即可。例如，在分类问题中，如果某个数据点的正类对应的 ${\alpha _t} < 0$ ，则它表示该点是负类。我们所说的该样本是正类的概率是-99%，其实就表示该样本是负类的概率是99%。所以， ${{\alpha _t} \ge 0}$ 和 ${\alpha _t} < 0$ 的效果是等同的，可以把 ${{\alpha _t} \ge 0}$ 这个条件舍去，那么此时求解linear blending就可以用普通的线性回归的解法求解。

在求解的过程中，我们把数据集D分为两个部分，训练集 $D_{train}$ 和验证集 $D_{val}$ 。那么，通常的做法就是在训练集 $D_{train}$ 上对各个模型进行训练，得到 $g_1^ - ,g_2^ - , \cdots ,g_T^ -$ ，然后通过 $g^-$ 把验证集 $D_{val}$ 上的数据 $x_n,y_n)$ 转换成 $({z_n} = {\phi ^ - }({x_n}),{y_n})$ ，通过在线性模型上最小化 $E_{val}$ 得到 ${\alpha _t}$ 。最终再用所有的样本数据，用 $g_t$ 代替 $g_t^-$ (Validation中的思想)，得到 $G (x)$ 的表达式， $G (x)$ 是 $g_t$ 的线性组合而不是 $g_t^-$ ，系数是 ${\alpha _t}$ 。

Any Blending(Stacking)

在linear blending中， $G (x)$ 是 $g$ 的线性组合；那么，在Stacking中， $G (x)$ 可以是 $g$ 的任何函数形式，即是一种非线性关系，其优点是模型复杂度高，更容易获取好的预测模型，但会带来过拟合的危险，通常采用正则化的方法，使模型具有更好的泛化能力。

Bagging

Blending是通过综合考虑各个 $g_t$ 来使得最终的预测效果提高。前面已经说过，获取 $g_t$ 的四种不同的方法，即，可以选择不同的模型H；可以设置不同的参数，如学习率，迭代次数等；可以由算法的随机性得到，如PLA等；可以用不同的训练集来训练。

那么，这里索要说明的就是最后一点，怎么利用一份已有的数据集来构造新的数据集？首先，我们来看下面的式子，
$\bar g = \mathop {\lim }\limits_{T \to \infty } G = \mathop {\lim }\limits_{T \to \infty } \frac{1}{T}\sum\limits_{t = 1}^T {{g_t}} = \mathop \varepsilon \limits_D A(D)$
为了得到算法的平均的表现 $\bar g$ ，这里做了两个近似：

有限的且非常大的T;
用已有的数据集D构造出 $D_t$ ， $D_t$ 与 $D$ 独立同分布。

第一个条件没有问题，第二个条件的做法就是boostrapping，它是统计学里的一个概念，思想就是从一份已知的样本集D中模拟出类似的数据集 $D_t$ 。

boostrapping的做法，简单来说，就是有放回的抽样。假设有N笔资料，先从中选出一个样本，再放回去，再选择一个样本，再放回去，就这样重复N次，就可以得到一个新的N笔资料，这个新的样本集 $D_t$ 可能包含原数据集 $D$ 中重复的样本点，也可能没有D里的某些样本，得到的 $D_t$ 与D相似但又不完全相同。当然，抽取-放回的操作不一定非要是N，即模拟出的 $D_t$ 的大小根据实际情况设定。而利用boostrap进行aggregation的操作就被称为bagging。

下面，看一个Bagging Pocket算法的例子。如下图，先用boostrapping得到25个不同的样本集，再用pocket算法得到25个不同的 $g_t$ ，每个pocket算法迭代1000次，最后，用blending把各个 $g_t$ 融合，得到图中的黑色分类线。
在这里插入图片描述
可以看出，通过boostrapping得到的样本集训练后，会得到差别很大的分类线(图中的灰线)，但经过blending后，得到的分类线(图中黑色线)的效果还是不错的。值得注意的是，当各个基础的演算法对数据随机性很敏感的时候，bagging往往能有比较好的表现。

daocaoren_

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习——多模型选择和融合的方法(Validation & Blending & Bagging)

在学习Blending和Bagging之前，先来看一个衡量泛化误差的方法——偏差-方差分解(bias-variance decomposition)。一个机器学习模型的泛化误差主要由3个部分组成，即：偏差(bias)，方差(variance)和噪声(nosie)，泛化误差=bias + variance + noise若有一个数据集DDD，DDD中有一堆测试样本xxx，其对应的标签集为y...
复制链接

扫一扫