【论文笔记】MixMatch: A Holistic Approach to Semi-Supervised Learning

最新推荐文章于 2023-03-14 22:12:59 发布

puchapu

最新推荐文章于 2023-03-14 22:12:59 发布

阅读量5.2k

点赞数 7

分类专栏：论文

本文链接：https://blog.csdn.net/puchapu/article/details/92755534

版权

论文专栏收录该内容

3 篇文章 0 订阅

订阅专栏

原文链接：https://arxiv.org/abs/1905.02249
本文提出的MixMatch方法结合了之前半监督学习中一系列的有效方法，在仅有少量标注的情况下，在很多数据集上都达到了可以媲美有监督学习的结果。

摘要

半监督学习已被证明是利用未标记数据减轻对大型标记数据集依赖的一个有效地方法。在这项工作中，我们统一了目前半监督学习的主要方法，并产生了一个新的算法—MixMatch。该方法主要通过猜测数据增强的无标数据的低熵标签，并使用MixUp混合有标和无标样例。我们展示了MixMatch在许多数据集和标记的数据量上获得了state of the art的结果。例如，在包含250个标签的CIFAR-10上，我们将错误率降低了4倍(从38%降低到11%)，在STL-10上降低了2倍。我们还展示了MixMatch如何帮助实现对差异私有性中精确性和私有性权衡。最后，我们进行消融研究，得出哪些成分是MixMatch取得成功的关键。

介绍

1.现有大多数深度网络的成功依赖于大量的有标数据。对于很多任务收集标注数据很困难，而得到无标数据相对容易。

2.半监督学习（SSL）试图利用无标注的数据来减轻对有标数据的需求。很多SSL方法针对无标注数据增加损失项来使得模型很好的泛化到未见数据上。损失项可分为三类：熵最小化，一致性正则化和一般正则化。

本文介绍了MixMatch利用一个loss将这些方法应用到半监督学习中，有以下贡献：

1.在所有数据集上取得了state-of-the-art。

2.消融实验表明MixMatch效果好于每部分之和。

3.MixMatch对于隐私学习很有效。取得state-of-the-art的同时也保证了隐私性。

MixMatch

MixMatch集成了上述方法，给定有标数据集 $\mathcal{X}$ 和同等大小的无标数据集 $\mathcal{U}$ ，对有标数据和无标数据进行数据增强分别得到 $\mathcal{X^’}$ 和 $\mathcal{U^’}$ 。它们被分别用来计算有标和无标的损失项，最终Loss如下：
$\mathcal{X^’}，\mathcal{U^’}=MixMatch(\mathcal{X},\mathcal{U},T,K,\alpha)$
$L_{\mathcal{X}}=\frac{1}{|\mathcal{X^’}|}\sum_{x,p \in \mathcal{X^’}}H(p,P_{model}(y|x;\theta))$
$L_{\mathcal{U}}=\frac{1}{L|\mathcal{U^’}|}\sum_{x,p \in \mathcal{U^’}}||q-P_{model}(y|u;\theta)||_2^2$
$L=L_{\mathcal{X}}+\lambda_{\mathcal{U}}L_{\mathcal{U}}$
其中 $H (p, q)$ 表示分布p和q之间的交叉熵损失， $T$ ， $K$ ， $\alpha$ ， $\lambda_{\mathcal{U}}$ 是超参数，整个算法流程如下表所示：

1.数据增强

如上文所说，数据增强是减轻缺少有标数据影响的一种方法。类似于大部分半监督学习方法，我们同时对有标和无标数据进行数据增强。对有标数据进行一次数据增强，无标数据进行K次数据增强。这些无标数据增强后得到的结果进行‘laebl guessing’获得 $q_b$

2.label guessing

对于单个无标样例，我们计算K次增强后类别预测分布的均值，这个得到的标签带入后续的无监督损失项中。

$\overline {q_b}=\frac{1}{K}\sum_{k=1}^Kp_{model}(y|\hat{u_{b,k}};\theta)$
这个方法在一致性正则化方法中很常见。

3.sharpening

得到了上述label guessing的结果后，使用sharpening方法进行熵最小化处理，如下式：

$Sharpen(p,T)_i := p_i^{\frac{1}{T}}/\sum_{j=1}^{L}p_j^{\frac{1}{T}}$
其中p是类别分布（上述的增强后类别分布的均值），T是超参数。T越趋于0，sharpen的输出就趋向于one-hot。因为后续我们需要使用sharpen的输出作为模型预测的目标值，所以选择较低的T保证了模型可以产生低熵的预测。

4.MixUp

我们同时对有标数据和有label guessing结果的无标数据进行MixUp。我们一开始分别对有标数据和无标数据设置不同的loss，但是这会带来问题。对于一对样例， $x_1,p_1)$ , $x_2,p_2)$ 我们稍微修改了MixUp方法。通过下式计算得到 $x^’，p_’)$

$\lambda \sim {Beta(\alpha,\alpha)}$
$\lambda^’=max(\lambda,1-\lambda)$
$x^’=\lambda^’x_1+(1-\lambda^’)x_2$
$p^’=\lambda^’p_1+(1-\lambda^’)p_2$
传统的MixUp可以被看做省略了第二项，即 $\lambda=\lambda^’$ 。收集所有的有标和无标和label guessing结果使用MixUp。

我们将两部分串联起来并shuffle形成MixUp所需的数据源，对第i个有标样例，计算 $MixUp(\hat \mathcal{X}_i,W_i)$ 并加入 $\mathcal{X'}$ 集合中。由于我们的修改，MixUp的结果应该更接近原始有标数据而不是插值的结果。用剩余的W来计算 $\mathcal{U}'$

据此，MixMatch将 $\mathcal{X}$ 转变为了 $\mathcal{X}'$ ，一个包含数据增强后的有标数据和与无标数据MixUp结果的集合。相应的， $\mathcal{U}$ 转变为了 $\mathcal{U}'$ ，一个对于每个无标样例进行多重数据增强并包含其label guessing的集合。

5.损失函数

获得了 $\mathcal{X}'$ 和 $\mathcal{U}'$ 之后，利用本节一开始的损失函数，对于有标数据，使用传统交叉熵损失，并加上对于 $\mathcal{U}'$ 中无标数据的标签预测值的平方L2损失。相较于交叉熵，平方L2损失对错分样例有着更低的敏感性。我们不通过猜测的标签传播梯度。

实验部分感兴趣的读者可以参考原文，这里不再赘述。

puchapu

关注

7
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
【论文笔记】MixMatch: A Holistic Approach to Semi-Supervised Learning

原文链接：https://arxiv.org/abs/1905.02249本文提出的MixMatch方法结合了之前半监督学习中一系列的有效方法，在仅有少量标注的情况下，在很多数据集上都达到了可以媲美有监督学习的结果。摘要半监督学习已被证明是利用未标记数据减轻对大型标记数据集依赖的一个有效地方法。在这项工作中，我们统一了目前半监督学习的主要方法，并产生了一个新的算法—MixMatch。该方法主...
复制链接

扫一扫