SSL论文笔记：MixMatch: A Holistic Approach to Semi-Supervised Learning

最新推荐文章于 2024-05-18 17:46:17 发布

weixin_39901859

最新推荐文章于 2024-05-18 17:46:17 发布

阅读量809

点赞数 1

分类专栏：论文心得等文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/weixin_39901859/article/details/107057706

版权

MixMatch是半监督学习的一种新方法，通过数据增强、MixUp和熵最小化来生成低熵伪标签。它结合了熵最小化、一致性正则化和通用正则化，提升了模型的泛化能力。实验表明，MixMatch中的MixUp和标签平滑（sharpen）在未标记数据上的应用对于其成功至关重要。

摘要由CSDN通过智能技术生成

Abstract

MixMatch, that guesses low-entropy labels for data-augmented unlabeled examples and mixes labeled and unlabeled data using MixUp.

最后进行消融研究，以弄清楚MixMatch的哪些成分对其成功最重要。

对于SSL的三种常用的loss term去使模型泛化性更强：

entropy minimization：基于一个假设，分类器的决策边界不应通过边缘数据分布的高密度区域。因此sharpen标签去输出低熵预测。
consistency regularization：通过利用分类器即使在扩展后也应为未标记的示例输出相同的类分布的思想，将data augmentation应用于半监督学习。
generic regularization：避免训练数据过拟合，本文中第一次将mixup用于ssl领域，作为labeled datapoints和unlabeled datapoints共同的正则器

简而言之，MixMatch为未标记的数据引入了统一的损失项，可以无缝地减少熵，同时保持一致性并保持与传统正则化技术的兼容性。

循环，对一个Batch的标记数据和一个Batch的未标记数据（equally-sized batch）做数据增广，分别得到一个Batch的标记增广数据和K个Batch的未标记增广数据。（文章中K=2）
预测伪标签：将K个增广后的数据输入分类器，计算平均分类概率，应用温度Sharpen算法使伪标签熵小化。
将一个Batch的标记增广数据和K个Batch的未标记增广数据混合，随机重排得到 $W$ 数据集。
将一个batch的标记增广数据和 $W$ 的前一个batch利用mixup混合构成新的标记增广数据；再将K个batch的未标记增广数据和 $W$ 剩下的数据利用mixup混合构成新的未标记增广数据。
对增广后的标记数据计算CE损失，对增广后的未标记数据计算 $L_2$ 损失。【因为与交叉熵不同，它有界且对错误的预测不那么敏感。因此，它通常用作SSL中未标记的数据丢失以及预测不确定性的量度】

以下材料中提到一个解释是 $L_2$ 损失约束更严格，CE损失会忽略相差一个常数的情况：

关注