（《机器学习》完整版系列）第13章半监督学习——13.5 基于分歧的方法（多学习器间的差异、协同训练算法）

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129647106

这里的分歧是指多学习器间的差异，如，不同视图、不同算法、不同数据采样、不同参数设置等等，而不仅指标记的分歧。
此类方法的典型代表有协同训练算法

基于分歧的方法

基于分歧的方法的典型代表有协同训练算法【西瓜书图13.6】，我们重点来理解一下该算法：

（1）多视图表示：如，电影片断=<音频片断，视频片断>，假定只考虑这两视图，则样本 $\boldsymbol{x}_i=<\boldsymbol{x}_i^1,\boldsymbol{x}_i^2>$ （上标为视图编号），这时，有标记的样本 $(\boldsymbol{x}_i,y_i)$ 变为 $(<\boldsymbol{x}_i^1,\boldsymbol{x}_i^2>,y_i)$ ，则有标记的样本集为： $D_l=\{(<\boldsymbol{x}_i^1,\boldsymbol{x}_i^2>,y_i)\}_{i=1}^l$ ，将其分拆为
$\begin{align*} D_l^1=\{(\boldsymbol{x}_i^1,y_i)|(<\boldsymbol{x}_i^1,\boldsymbol{x}_i^2>,y_i)\in D_l\}_{i=1}^l \\ D_l^2=\{(\boldsymbol{x}_i^2,y_i)|(<\boldsymbol{x}_i^1,\boldsymbol{x}_i^2>,y_i)\in D_l\}_{i=1}^l \end{align*}$
这两个式子即为第3至5句，之所以用一个循环，是为了方便推广到 $k$ 个视图情况（若为 $k$ 视图，其任一视图记为 $j$ 时，则其他的 $k - 1$ 个视图分别为 $(j+i)\%k\,,\, (i=1,2,\cdots,(k-1))$ ）。

同样，也可对未标记的数据集 $D_u$ 进行分拆。
基于两个视图，容易想到训练两个对应的学习器，但这样的两个学习器各自独立，没有交互，达不到“相互学习”的目的。

（2）假定有大量的未标记的样本，我们逐步拿出 $D_u$ 中的样本，使得学习循序渐进地进行。

（I）先拿出 $D_u$ 的一个子集 $D_s,|D_s|=s$ ，并依两视图分拆为 $D_s^1$ 和 $D_s^2$ ，虽然，基于 $D_l^1\cup D_s^1$ 和 $D_l^2\cup D_s^2$ 可以分别训练出这两视图的学习器，但我们不这样做，而是考虑交替训练，以便相互学习。我们以图13.3 ）及其中的编号进行说明：
图13.3 交替学习

图13.3 交替学习

设已训练出视图1的学习器 $h_1$ （初始时为 $h_1=\mathfrak{L} (D_l^1)$ （有监督学习）），它有对应的置信度判别函数，也可以是分类器本身充当置信度判别函数，如，以函数符号进行分类时，则函数值的绝对值即为置信度。绝对值越大则分类预测越可信（越有把握）。将 $h_1$ 作用于视图1的未标记样本集 $D_s^1$ （对 $D_s^1$ 中的样本进行预测并给出预测的置信度）；
依置信度从高到低排序后，可选出 $p$ 个置信度高的预测正例（伪正例），选出 $n$ 个置信度高的预测反例（伪反例），其中， $p, n$ 为超参且 $\ll s$ ，得到伪正例集 $D_p^1$ 和伪反例集 $D_n^1$ 。图中简记为伪例集 $D_{pn}^1=D_p^1\cup D_n^1$ ；
根据前述分拆规则，用视图1的伪例集 $D_{pn}^1$ 对应出视图2的伪例集 $\tilde{D} _{pn}^2$ ；
训练视图2的学习器 $h_2$ ，这时训练的基础除了有标记的样本集 $D_l^2$ 之外，还有伪标记集 $\tilde{D} _{pn}^2$ ，由于我们是依置信度判别函数选出置信度排前的（置信度高），故我们将它“当成”实际标记，以 $D_l^2\cup \tilde{D} _{pn}^2$ 作为样例集，进行有监督学习训练出视图2上的学习器 $h_2$ ；
在 $D_s$ 中剔除掉已经使用 $\tilde{D} _{pn}^2$ 所对应的样本，仍记为 $D_s$ ，视图2的学习器 $h_2$ 作用于 $D_s$ 的 $D_s^2$ （与第1步对称）；
依置信度选出伪例集 $D_{pn}^2=D_p^2\cup D_n^2$ （与第2步对称）；
用视图2的伪例集 $D_{pn}^2$ 对应出视图1的伪例集 $\tilde{D} _{pn}^1$ （与第3步对称）；
以 $D_l^1\cup \tilde{D} _{pn}^1$ 作为样例集，进行有监督学习，训练出视图1上的学习器 $h_1$ ，在 $D_s$ 中剔除掉已经使用 $\tilde{D} _{pn}^1$ 所对应的样本，仍记为 $D_s$ ，完成本轮交替学习。

（ II）图中虚线框中过程表示：经过上述第1至8步完成了一轮交替训练（第4步训练视图2的学习器 $h_2$ ，第8步训练视图2的学习器 $h_1$ ），这时 $D_s$ 中的样本由于两次剔除而减少，从而需要补充样本，图左上角所示，
即
$\begin{align*} D_s:&=D_s\bigcup \{\text{从$D_u$中抽取$2n+2p$个样本}\} \\ D_u:&=D_u\setminus \{\text{已抽取的$2n+2p$个样本}\} \end{align*}$