有监督和无监督

最新推荐文章于 2024-06-19 23:17:03 发布

Jemila

最新推荐文章于 2024-06-19 23:17:03 发布

阅读量1.9k

点赞数

分类专栏： Machine Learning 文章标签：数据分析

Machine Learning 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

在机器学习中，有两种主要的学习方法：有监督的学习和无监督的学习。（[2]A Blum, T Mitchell. Combining labeled and unlabeled data with constraining[C]. In: Proceedings of the 11th Annal Conf on Computational Learning Theory, 92-100）有监督的学习依赖于一组带有类标号的样本，一个具体样本的形式可以表示为：（v1,v2,…,vn; c），其中vi表示字段，c表示类别，是由用户或领域专家根据特定的数据值、特定的问题，以及用户或领域专家的知识共同作用下给出的。通过训练，产生一个分类器。通过一组测试样本，测试分类器，以衡量其有效性。其中有监督又分为分类和回归。

尽管有监督的学习方法已经证明是有效的，并且也得到广泛的应用，但是有监督的学习方法的性能完全由训练样本的数量和质量决定，（P S Bradley, K P Bennett, A Demiriz. Constrained K-Means Clustering. MSR-TR-2000-65,Microsoft Research, 2000-05），主要存在以下两点缺陷： (1)垃圾进、垃圾出。是指分类器的有效性完全依赖于训练样本的质量，当训练样本的质量不高时，很难得到好的分类效果。（2）过分适应训练样本。当训练样本的数量有限时，就会出现过分适应训练样本的现象，从而影响对新到数据的分类性能。简单解决的办法是增加训练样本的数量，但是给训练数据分类是一项极其耗费时间的工作，甚至有些情况下是不可能的。比如：对于有些问题，人们还不知道问题的正确答案，因此“增加训练样本的数量”看似简单，实际上并不简单。

有监督的学习方法和无监督的学习方法的目标不同：有监督的学习方法的目标是建立问题域的预测模型，无监督的学习方法的目标是通过数据分析以发现有趣的模式或结构。聚类方法是一种无监督的学习方法。需要聚类的数据对象没有标记，需要由聚类算法自己确定。由于对数据对象不具备任何背景知识，聚类算法采用相同的原则对这些数据进行分析，聚类结果是否有效依赖于数据集对事先所制定的原则（假设）的符合程度。然而，在有些应用中，聚类算法这种通用的原则过于“僵硬”，有时会产生错误的结果。

有监督的学习方法和无监督的学习方法是两种极端的情况。（K Nigam, A McCallum, S Thrun. Learning to classify from labeled and unlabeled documents[C]. In: Proceedings of the 15th National Conf on AI, 792-799）有监督的学习方法需要每个数据记录都有类标号，而无监督的学习方法则不考虑任何指导性信息。就学习而言成功的学习是尽可能充分利用通过各种渠道获得的有用信息，于是产生了一些新的学习方法，如：弱监督学习（weak supervised）和半监督学习（semi-supervised）方法，（[2]）能够在降低训练样本数量的前提下利用特定领域的背景知识。