【科普】半监督学习的概述与思考，及其在联邦学习场景下的应用-CSDN博客

本文链接：https://blog.csdn.net/moxibingdao/article/details/123267527

本文探讨了半监督学习在解决数据标注难题中的作用，特别是在联邦学习场景下，面对非独立同分布的数据和隐私保护需求。文章介绍了伪标签、熵最小化、标签锐化、一致性正则化等半监督学习策略，并通过Mixup、MixMatch、ReMixMatch、FixMatch和FlexMatch等方法进行了深入阐述，展示了这些方法如何提高模型的泛化能力和数据利用率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关注公众号，发现CV技术之美

在现实世界中，数据往往存在各种各样的问题，例如：图片分类模型对标注数据的依赖性很强、标注图片数据难以获取、大量未标注数据存在、针对某个场景的数据量过小…等等问题。

在联邦学习中，由于数据的非独立同分布特性（Non-IID）导致了每个客户端（数据拥有者）自身的数据可能存在噪声、标注不完全、数据量不够等等情况，同时我们从隐私安全的方面考虑到只要使用数据，就有可能存在隐私泄露的风险，因此有人思考到：能否只从每个数据拥有方抽取一小部分数据（含有标签）放到客户端，然后再添加大量无标注数据来帮助模型进行训练呢？

这就不得不提到半监督学习，半监督学习是指训练集同时包含带标签的样本数据以及未标记的样本数据，在不需要人工干预的情况下，让模型可以自动利用未标记样本数据来提升自己的学习性能。

进一步而言，本质就是模型利用已标注数据从未标注数据中提取信息用于自身训练，同时有些情况下如果标注数据很多，那么再利用未标注数据可以提升模型的泛化能力。如下图所示，半监督学习可以在标签不知道的情况下让模型也能正确完成任务。