标记样本和无标记样本学习

最新推荐文章于 2024-01-17 11:16:57 发布

tieshuai

最新推荐文章于 2024-01-17 11:16:57 发布

阅读量3k

点赞数

文章标签：测试 oracle web 存储

标记样本和无标记样本学习

在传统的监督学习中，学习器通过对大量有标记的（labeled）训练例进行学习，从而建立模型用于预测未见示例的标记。这里的“标记”（label）是指示例所对应的输出，在分类问题中标记就是示例的类别，而在回归问题中标记就是示例所对应的实值输出。随着数据收集和存储技术的飞速发展，收集大量未标记的（unlabeled）示例已相当容易，而获取大量有标记的示例则相对较为困难，因为获得这些标记可能需要耗费大量的人力物力。例如在计算机辅助医学图像分析中，可以从医院获得大量的医学图像作为训练例，但如果要求医学专家把这些图像中的病灶都标识出来，则往往是不现实的。事实上，在真实世界问题中通常存在大量的未标记示例，但有标记示例则比较少，尤其是在一些在线应用中这一问题更加突出。例如，在进行Web网页推荐时，需要用户标记出哪些网页是他感兴趣的，很少会有用户愿意花大量的时间来提供标记，因此有标记的网页示例比较少，但Web上存在着无数的网页，它们都可作为未标记示例来使用。

显然，如果只使用少量的有标记示例，那么利用它们所训练出的学习系统往往很难具有强泛化能力；另一方面，如果仅使用少量“昂贵的”有标记示例而不利用大量“廉价的”未标记示例，则是对数据资源的极大的浪费。因此，在有标记示例较少时，如何利用大量的未标记示例来改善学习性能已成为当前机器学习研究中最受关注的问题之一。

目前，利用未标记示例的主流学习技术主要有三大类，即半监督学习（semi-supervised learning）、直推学习（transductive learning）和主动学习（active learning）。这三类技术都是试图利用大量的未标记示例来辅助对少量有标记示例的学习，但它们的基本思想却有显著的不同。在半监督学习中，学习器试图自行利用未标记示例，即整个学习过程不需人工干预，仅基于学习器自身对未标记示例进行利用。直推学习与半监督学习的相似之处是它也是由学习器自行利用未标记示例，但不同的是，直推学习假定未标记示例就是测试例，即学习的目的就是在这些未标记示例上取得最佳泛化能力。换句话说，半监督学习考虑的是一个“开放世界”，即在进行学习时并不知道要预测的示例是什么，而直推学习考虑的则是一个“封闭世界”，在学习时已经知道了需要预测哪些示例。实际上，直推学习这一思路直接来源于统计学习理论[Vapnik98]（[Vapnik98] V. N. Vapnik. Statistical Learning Theory, New York: Wiley, 1998），并被一些学者认为是统计学习理论对机器学习思想的最重要的贡献1。其出发点是不要通过解一个困难的问题来解决一个相对简单的问题。V. Vapnik认为，经典的归纳学习假设期望学得一个在整个示例分布上具有低错误率的决策函数，这实际上把问题复杂化了，因为在很多情况下，人们并不关心决策函数在整个示例分布上性能怎么样，而只是期望在给定的要预测的示例上达到最好的性能。后者比前者简单，因此，在学习过程中可以显式地考虑测试例从而更容易地达到目的。这一思想在机器学习界目前仍有争议，但直推学习作为一种重要的利用未标记示例的技术，则已经受到了众多学者的关注。主动学习和前面两类技术不同，它假设学习器对环境有一定的控制能力，可以“主动地”向学习器之外的某个“神谕”(oracle)进行查询来获得训练例的标记。因此，在主动学习中，学习器自行挑选出一些未标记示例并通过神谕查询获得这些示例的标记，然后再将这些有标记示例作为训练例来进行常规的监督学习，而其技术难点则在于如何使用尽可能少的查询来获得强泛化能力。对比半监督学习、直推学习和主动学习可以看出，后者在利用未标记示例的过程中需要与外界进行交互，而前两者则完全依靠学习器自身，正因为此，也有一些研究者将直推学习作为一种半监督学习技术来进行研究。