[半监督学习] Semisupervised Regression with Cotraining-Style Algorithms

码侯烧酒

已于 2022-02-19 00:02:10 修改

阅读量1.7k

点赞数 2

分类专栏：论文文章标签：机器学习回归

于 2022-01-09 22:26:41 首次发布

本文链接：https://blog.csdn.net/by6671715/article/details/122397706

版权

论文专栏收录该内容

27 篇文章 15 订阅

订阅专栏

本文提出一种协同训练型半监督回归算法 COREG. 该算法使用两个回归器, 每个回归器为另一个回归器标记未标记的数据, 其中标记未标记示例的置信度通过该示例标记邻域上的均方误差减少量来估计.

论文地址: Semisupervised Regression with Cotraining-Style Algorithms
代码地址: https://github.com/nealjean/coreg
期刊: IEEE Transactions on Knowledge and Data Engineering (2007)
任务: 回归

定义 $\mathbf{L} = \{(x_1,y_1),\dots,(x_{\vert \mathbf{L}\vert},y_{\vert \mathbf{L}\vert})\}$ 为标记的示例集合, 其中 $x_i$ 为由 $d$ 属性描述的第 $i$ 个示例, $y_i$ 为数值标签，即期望的实际输出, $\vert \mathbf{L} \vert$ 为带标签的示例个数. 另外定义 $\mathbf{U}$ 为未标记数据集, $\vert \mathbf{U} \vert$ 为未标记示例的数量.

COREG 既不假设有两个视图, 也不假设使用不同的学习算法. 因此必须从其他渠道寻求回归器的多样性. 在这里, 使用回归器 $h_1$ 和 $h_2$ , 都采用 $k$ -NN 算法. 这两个 $k$ -NN 回归器可以是不同的, 通过用不同的距离度量或不同的 $k$ 值来实例化. 在学习过程中, 每个回归器都为另一个回归器标记未标记示例. 使用 $k$ -NN 回归器是出于以下考虑: 首先, $k$ -NN 算法是一种惰性学习方法, 不需要单独的训练阶段. 其次, 为了选择合适的未标记示例进行标记, 应估计标记置信度. 由于局部平滑的流形假设在回归问题中亦成立, 在 COREG 中, 置信度估计使用了训练示例的邻近属性, 可以很容易地与 $k$ -NN 回归器耦合.

为了选择合适的未标记示例进行标记, 应估计标记置信度, 以便可以识别出最自信的标记示例. 与主动学习不同, 在主动学习中, 选定的未标记示例将被传递给专家以询问其真实标签. 因此, 通常会选择学习器最不信任的未标记示例, 因为它对改进学习器最有价值. 而在半监督学习中, 由于没有可以依赖的专家, 因此通常选择学习器最有信心的未标记示例进行标记.

然而, 相比于分类问题，回归问题的难点在于如何挑选置信度较高的伪标签. 估计分类中的标签置信度相对简单, 例如, 朴素贝叶斯分类器返回最大后验概率. 如果分类器输出类别的后验概率足够高, 就可以将该预测设置为无标签数据的伪标签. 但是对于回归问题而言, 没有这样的后验概率可以使用. 回归中可能的预测是无限的. 因此, COREG 的一个关键是估计标注置信度的机制.

置信度标记

最有信心标记的示例应该是使回归器与标记的样本集最一致的示例. the most confidently labeled example should be the one that makes the regressor most consistent with the labeled example set.

首先计算标记样本集上回归器的均方误差 $MSE_{before}$ .
然后利用 $(x_u, \hat{y}_u)$ 计算回归器的均方误差 $MSE_{after}$ , 其中, $x_u$ 为未标记的示例, $\hat{y}_u$ 为原始回归器生成的标签.
计算 $\Delta_u = MSE_{before} - MSE_{after}$ . 注意: $\Delta_u$ 的数量与未标记示例的个数保持一致.
最后, 与 $\Delta_u$ 最大正相关的 $(x_u, \hat{y}_u)$ 可以被视为最自信的标记示例.

由于在每次迭代中, 对整个标记示例集重复计算 $k$ -NN 回归器的 MSE 非常耗时, 这时, 对于每个 $x_u$ , COREG 标记其 $k$ 个最近的示例, 并使用它们计算 MSE.

令 $\Omega_u$ 为 $x_u$ 在 $\mathbf{L}$ 里的带标记的 $k$ 最近邻示例集合. 然后, 通过最大化 $\delta_{x_u}$ 来确定标记最可靠的示例 $\overline{x}$ .
$\delta_{x_u} = \sum_{x_i \in \Omega_u}((y_i-h(\mathbf{x}_i))^2-(y_i-h'(\mathbf{x}_i))^2) \tag{1}$

其中 $h$ 是原始回归器, $h^{'}$ 表示利用 $(x_u, \hat{y}_u)$ , $\hat{y}=h(x_u)$ 改进后的回归器.

COREG 算法

函数 $kNN(L_j, k_j, D_j)$ 在标记的示例集 $L_j$ 上返回一个 $k$ -NN 回归器, 其 $k$ 值为 $k_j$ , 距离度量为 $D_j$ . 当达到最大学习迭代次数 $T$ 时, 或者没有能够减少标记样本集上任何回归器的 MSE 的未标记样本时, 学习过程停止. 根据最初的 Co-training 算法思想, 使用一个小于 $U$ 的未标记样本池 $U^{'}$ . 需要注意的是, 在每次迭代中, 由 $h_1$ 选择的未标记示例将不会由 $h_2$ 选择, 这是一种额外的机制, 用于鼓励回归器的多样性. 因此, 即使 $h_1$ 和 $h_2$ 相似, 它们为彼此标记的示例也将不同.
在这里插入图片描述

在每次迭代中, COREG 的计算成本主要用于识别示例的邻居. 由于可以预先计算和存储每个已标记训练示例的相邻已标记示例, 实际上, 只需要识别未标记示例的邻居, 然后更新已标记训练示例的邻居. 此外, 许多未标记示例的已识别邻居可以在迭代中重用. 因此, COREG 的计算成本几乎与使用 $k$ -NN 回归器预测未标记示例的计算成本相当.

需要注意的是, 在使用两个 $k$ -NN 回归器选择和标记未标记的示例后, 可以使用其他类型的回归器而不仅仅是 $k$ -NN 回归器进行预测. 例如, 假设我们使用线性回归, 在使用两个 $k$ -NN 回归器对未标记样本进行选择和标记后, 我们得到了两个已扩充标记的训练集. 在每个训练集上, 我们可以训练一个线性回归器, 然后, 对这两个线性回归的预测进行平均, 作为最终预测.

分析

分析 COREG 的学习过程是否可以使用未标记的示例来改进回归估计.

在 COREG 的每次学习迭代中, 对于每个未标记的示例 $x_u$ , 其 $k$ 最近邻的标记示例被放入集合 $\Omega_u$ . 如前所述, 新标记的示例应使回归器与标记的数据集更加一致. 因此, 可以使用下面式子来评估 $x_u$ 是否有用:
$\Delta_u=\frac{1}{\vert L\vert} \sum_{x_i \in L} (y_i-h(x_i))^2-\frac{1}{\vert L\vert} \sum_{x_i \in L} (y_i-h'(x_i))^2 \tag{2}$
其中 $h$ 是原始回归器, $h^{'}$ 表示利用 $(x_u, \hat{y}_u)$ 改进后的回归器. 如果 $\Delta_u$ 的值为正, 则利用 $(x_u, \hat{y}_u)$ 是有益的. 在 COREG 算法中, 选择最大化 $\delta_u$ 值的未标记示例进行标记. 因此, 问题是根据最大化 $\delta_u$ 值选择的未标记示例是否可以使得 $\Delta_u$ 的值为正.

首先, 假设 $(x_u, \hat{y}_u)$ 是 $\Omega_u$ 中某些示例的 $k$ 近邻, 而不是 $L$ 中其他示例的 $k$ 近邻. 在这种情况下, 显然利用 $(x_u, \hat{y}_u)$ 只会改变 $\Omega_u$ 中的回归估计. 因此, 式(2)变为:
$\Delta_u=\frac{1}{k} \sum_{x_i \in \Omega_u} (y_i-h(x_i))^2-\frac{1}{k} \sum_{x_i \in \Omega_u} (y_i-h'(x_i))^2 \tag{3}$
比较式(1)和式(3), $\delta_u$ 的最大化也导致了 $\Delta_u$ 的最大化.

接着, 假设 $(x_u, \hat{y}_u)$ 同时是 $\Omega_u$ 和 $\Omega_u$ 中某些示例的 $k$ 近邻. 并且令 $\Omega_u$ 中的示例为: $(x'_1,y'_1),\dots,(x'_m,y'_m)$ . 则式(2)变为:
$\Delta_u=\frac{1}{k+m} \left[\sum_{x_i \in \Omega_u} \left((y_i-h(x_i))^2-(y_i-h'(x_i))^2 \right) + \sum_{q \in \{1,\dots,m\}} \left((y'_q-h(x'_q))^2-(x'_q-h'(y'_q))^2\right) \right] \tag{4}$
最大化 $\delta_u$ 也会使式(4)的第一项最大化, 不过 $\Delta_u$ 与第二项同样有关系, 但是, 第二项的和式难以计算. 不过经过实验表明, 在大多数情况下, 存在一个有效的近似, 即可能存在这样的情况: 根据最大化 $\delta_u$ 而选择的未标记的示例可能会降低 $\Delta_u$ , 这是 COREG 使用 $\delta_u$ 所花费的成本, 可以更有效地来近似计算 $\Delta_u$ .

实验

周志华大佬的实验结果表明: 固定 $k$ 值, 采用不同的距离度量算法得到的实验结果最好, 其次是固定距离算法, 采用不同的 $k$ 值, 最后是同时固定 $k$ 值和距离度量算法.

码侯烧酒

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
[半监督学习] Semisupervised Regression with Cotraining-Style Algorithms

本文提出一种协同训练型半监督回归算法 COREG. 该算法使用两个回归器, 每个回归器为另一个回归器标记未标记的数据, 其中标记未标记示例的置信度通过该示例标记邻域上的均方误差减少量来估计.相比于分类问题，该场景下回归问题的难点在于如何挑选置信度较高的伪标签？分类问题很简单，对于一个样本点，如果分类器输出类别的后验概率足够高，那么就可以认为这个预测是准确的，因而可以将该预测设置为无标签数据的伪标签。但是对于回归问题而言，回归器是没有后验概率这一说法的，所以Coreg的主要贡献就在于给出了评估预测可靠程.
复制链接

扫一扫

专栏目录