《Learning Safe Prediction for Semi-Supervised Regression∗》
代码地址
1. 摘要
Semi-supervised learning (SSL) concerns how to improve performance via the usage of unlabeled data. Recent studies indicate that the usage of unlabeled data might even deteriorate performance. Although some proposals have been developed to alleviate such a fundamental challenge for semi- supervised classification, the efforts on semi-supervised re- gression (SSR) remain to be limited. In this work we consider the learning of a safe prediction from multiple semi- supervised regressors, which is not worse than a direct supervised learner with only labeled data. We cast it as a geometric projection issue with an efficient algorithm. Furthermore, we show that the proposal is provably safe and has already achieved the maximal performance gain, if the ground-truth label assignment is realized by a convex linear combination of base regressors. This provides insight to help understand safe SSR. Experimental results on a broad range of datasets validate the effectiveness of our proposal.
半监督学习 (SSL) 关注如何通过使用未标记数据来提高性能。最近的研究表明,使用未标记数据甚至可能会降低性能。尽管已经提出了一些建议来缓解半监督分类的这种基本挑战,但半监督回归(SSR)的努力仍然有限。在这项工作中,我们考虑从多个半监督回归器
中学习安全
预测,这并不比只有标记数据的直接监督学习器差。我们使用有效的算法将其转换为几何投影问题。此外,如果通过基回归量的凸线性组合来实现真实标签分配,我们证明了该提议是可证明的安全的并且已经实现了最大的性能增益。这提供了有助于理解安全 SSR 的洞察力。广泛数据集的实验结果验证了我们提议的有效性。
Thinking:
- 本文针对的问题算是另辟蹊径的一个新问题:从
多个半监督回归器
中学习安全
预测,保证不比只有标记数据的直接监督学习器差? - 新问题总是比新方法更好,前者创建研究方向,后者研究方法。
2. 算法描述
符号 | 含义 |
---|---|
{ f 1 , … , f b } , where f i ∈ R u \{f_1, \dots, f_b\}, \text{where } f_i \in \mathbb{R}^u {f1,…,fb},where fi∈Ru | b b b个半监督回归器对于 u u u个未标记样本的预测 |
f 0 ∈ R u f_0 \in \mathbb{R}^u f0∈Ru | 一个只是用有标记样本训练的回归器对于 u u u个未标记样本的预测 |
f ∗ f_{*} f∗ | 无标记样本的真实标签(当然这里是个完全未知量,不然也不叫无标记样本了) |
max f ∈ R u ∑ i = 1 b α i ( ∥ f 0 − f i ∥ 2 − ∥ f − f i ∥ 2 ) (1) \max_{f \in \mathbb{R}^u}\sum_{i=1}^{b}\alpha_i(\|f_0-f_i\|^2-\|f-f_i\|^2)\tag{1} f∈Rumaxi=1∑bαi(∥f0−fi∥2−∥f−fi∥2)(1)
Notice:
- f f f是输出,即 f = g ( { f 1 , … , f b } , f 0 ) f = g(\{f_1, \dots, f_b\}, f_0) f=g({f1,…,fb},f0),是我们想得到的一个值
- 损失分为两个部分,前一部分 ∥ f 0 − f i ∥ 2 \|f_0-f_i\|^2 ∥f0−fi∥2是常数,由于存在权重,所以无法舍去;
由于在实际生活中,权重信息也是不可知的,所以应该对 α i \alpha_i αi进行建模。
max f ∈ R u min α ∈ M ∑ i = 1 b α i ( ∥ f 0 − f i ∥ 2 − ∥ f − f i ∥ 2 ) (2) \max_{f \in \mathbb{R}^u}\min_{\alpha \in \mathcal{M}}\sum_{i=1}^{b}\alpha_i(\|f_0-f_i\|^2-\|f-f_i\|^2)\tag{2} f∈Rumaxα∈Mmini=1∑bαi(∥f0−fi∥2−∥f−fi∥2)(2)
对于等式(2)
对
f
f
f导数为零,得到一个闭式解。
f
=
∑
i
=
1
b
α
i
f
i
(3)
f = \sum^{b}_{i=1}\alpha_if_i\tag{3}
f=i=1∑bαifi(3)
合并等式2
,等式3
,得到:
min
α
∈
M
∥
∑
i
=
1
b
α
i
f
i
−
f
0
∥
2
(4)
\min_{\alpha \in \mathcal{M}}\|\sum_{i=1}^{b}\alpha_if_i-f_0\|^2\tag{4}
α∈Mmin∥i=1∑bαifi−f0∥2(4)
这里想了半天,不知道是怎么合并的,头痛😂。
精彩的地方来了,作者把等式4
作为一个几何投影问题
来解决。
Let
Ω
=
{
f
∣
∑
i
=
1
b
α
i
f
i
,
α
∈
M
}
\Omega = \{f| \sum_{i=1}^{b}\alpha_if_i, \alpha \in \mathcal{M}\}
Ω={f∣∑i=1bαifi,α∈M} 。
等式4
被重写为:
f
‾
=
arg min
f
∈
Ω
∥
f
−
f
0
∥
2
(5)
\overline{f} = \argmin_{f \in \Omega}\|f-f_0\|^2\tag{5}
f=f∈Ωargmin∥f−f0∥2(5)
这个式子的含义就是,在空间
Ω
\Omega
Ω中找到
f
f
f使得与
f
0
f_0
f0的距离最短,毫无疑问这个
f
‾
\overline{f}
f就是
f
0
f_0
f0在空间
Ω
\Omega
Ω的投影
。这个也是后面证明算法安全性的重要条件
。
Theorem1:
∥
f
‾
−
f
∗
∥
2
≤
∥
f
0
−
f
∗
∥
2
\|\overline{f}-f^{*}\|^2 \leq \|f_0-f^{*}\|^2
∥f−f∗∥2≤∥f0−f∗∥2 if the ground truth label assignment
f
∗
∈
Ω
=
{
f
∣
∑
i
=
1
b
α
i
f
i
,
α
∈
M
}
f^{*} \in \Omega = \{f| \sum_{i=1}^{b}\alpha_if_i, \alpha \in \mathcal{M}\}
f∗∈Ω={f∣∑i=1bαifi,α∈M}。
Notice:
- 算法安全只有一个条件,就是最优解 f ∗ f^{*} f∗在 Ω \Omega Ω在,也就是说能被多个半监督回归器的预测值加权和表示。
- 仔细体会其实有个问题,对于1中的条件,其实很难满足。一般来说,半监督回归器的预测值一般都会与最优值之间有一定差距,一堆回归器的加权值也不会接近预测值。