我们真的需要那么多标注数据吗？半监督学习技术近年来的发展历程及典型算法框架的演进...

最新推荐文章于 2024-08-21 21:59:29 发布

PaperWeekly

最新推荐文章于 2024-08-21 21:59:29 发布

阅读量5.5k

点赞数 3

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/106308669

版权

本文详细介绍了半监督学习技术，从2013年的Pseudo-Label到2019年的UDA，阐述了其发展历程和核心思想。半监督学习通过结合有标签和无标签数据，降低了对大量标注数据的依赖，尤其适用于数据标注成本高昂的领域。文章讨论了关键细节，如类别外数据处理、一致性正则的选择以及错误标记数据的影响，揭示了半监督学习在处理错误标签数据方面的优势。作者李渔，熵简科技联合创始人，致力于将先进AI技术应用于金融领域，通过半监督学习解决实际问题。

摘要由CSDN通过智能技术生成

即使在大数据时代，获取大批量高质量的标注数据在实际中往往成本高昂。半监督学习技术作为一类可以同时有效利用有标签数据和无标签数据的学习范式，有希望大大降低监督任务对于标签数据的需求。本文从 2013 年所提出的 Pseudo-Label 开始，至 2019 年 Google 所提出的 UDA 技术为止，详细介绍了半监督学习近年来的发展历程，重点关注各技术在核心思想、方法论上的演进。文章最后对半监督学习中涉及到的部分关键细节，如领域外数据等问题进行了详细讨论。

关于作者

李渔，熵简科技联合创始人，博士毕业于清华大学电子工程系，以第一作者身份发表学术论文 10 余篇，申请专利 6 项，致力于将先进的自然语言处理及深度学习技术真正落地于金融资管领域，让科技赋能产业。目前负责熵简科技 NLP 技术中台的建设，包括层次化的分层架构、大数据泛采体系、持续部署的后台支持以及前沿算法的领域内落地等，为熵简科技的各大业务线提供底层技术支持和可落地的解决方案。

个人知乎专栏：

https://zhuanlan.zhihu.com/c_1215573707772649472

1. 为什么要了解半监督学习
1.1 什么是半监督学习
1.2 半监督学习有什么用
2. 典型技术方案的演进历程
3. 部分关键细节的讨论
3.1 类别外数据的处理
3.2 一致性正则的数学选择
3.3 错误标记数据的影响
4. 总结

为什么要了解半监督学习

1.1 什么是半监督学习

半监督学习介于监督学习与无监督学习之间。一般而言，半监督学习的任务与监督学习一致，任务中包含有明确的目标，如分类。而所采用的数据既包括有标签的数据，也包括无标签的数据。

简单理解，可以认为半监督学习就是同时运用了标签数据和无标签数据来进行训练的监督学习。当然，在另外一些研究中，带有约束限制的无监督学习也被视为半监督学习，例如受限的聚类算法。

从半监督学习与监督学习的关系出发，我们可以自然得出半监督学习的几个核心点：

如何从无标签数据中获取学习信号来指导监督学习？
如何平衡运用有标签数据和无标签数据各自的学习信号？
如何选择无标签数据？

这几个核心点正是半监督学习方法需要解决的主要矛盾，同时也是半监督学习思想的精髓所在。本文在后面介绍各个算法时，将会针对这几个核心点做重点介绍。

1.2 半监督学习有什么用

我们知道，即使在大数据时代，想要获取到大批量高质量的标注数据在实际中往往是一件很困难的事，需要花费大量的人力和时间。

尤其在垂直领域，例如金融、法律、医学等领域，数据的标注还需要业务人员甚至行业专家的参与才能实现相对准确的数据标注，满足业务需求，这使得垂直领域的数据标注成本尤其高昂。

而半监督学习正是为了解决这一类问题而出现的。它的核心目标是，希望通过专家标注的少量有标签数据，结合大量的无标签数据，训练出具备强泛化能力的模型，从而解决实际中的问题。这也正是我们熵简 NLP 团队探索半监督学习技术的主要动机。

更进一步，半监督学习也是一类更接近于人类学习方法的机器学习范式。试想这样一个场景，我们小时候学习识别小猫、小狗、汽车等等物品时，往往只需要父母进行一两次的指导，我们就能很准确地辨认出什么是猫狗。

这背后有一个重要原因是，我们从出生开始就见过很多次小猫、小狗等等动物，虽然还没有人明确告诉过我们这些动物是什么，但我们的大脑已经对于这些事物建立了足够的认识。

整个过程抽象出来与半监督学习的思想很相似，父母的指导可视为有标签数据，出生之后的目之所见即为无标签数据，二者结合帮助我们实现快速地学习。因此，半监督学习技术既是少样本学习的重要路径之一，也有助于帮助我们发展更接近于人类学习范式的机器学习技术。

本文接下来部分重点介绍在深度学习时代，半监督学习技术的发展历程和代表工作。更为全面和基础的介绍，大家可以参考这两本书 [1,2]，这两本书都出版于2010年之前，基本汇集了半监督学习在前深度学习时代的主要成果。

典型技术方案的演进历程

本小节从 2013 年所提出的 Pseudo-Label 开始，至 2019 年 Google 所提出的 UDA 技术为止，详细介绍半监督学习近年来的发展历程，重点关注各技术在核心思想、方法论上的演进。

2.1 Pseudo-Label：The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks，2013

Pseudo-Label 模型作为一个简单、有效的半监督学习方法早在 2013 年就被提出，其核心思想包括两步：

第一步：运用训练出的模型给予无标签的数据一个伪标签。方法很直接：用训练中的模型对无标签数据进行预测，以概率最高的类别作为无标签数据的伪标签；
第二步：运用 entropy regularization 思想，将无监督数据转为目标函数的正则项。实际中，就是将拥有伪标签的无标签数据视为有标签的数据，然后用交叉熵来评估误差大小。

模型整体的目标函数如下: