有监督和无监督

在机器学习中,有两种主要的学习方法:有监督的学习和无监督的学习。([2]A Blum, T Mitchell. Combining labeled and unlabeled data with constraining[C]. In: Proceedings of the 11th Annal Conf on Computational Learning Theory, 92-100)有监督的学习依赖于一组带有类标号的样本,一个具体样本的形式可以表示为:(v1,v2,…,vn; c),其中vi表示字段,c表示类别,是由用户或领域专家根据特定的数据值、特定的问题,以及用户或领域专家的知识共同作用下给出的。通过训练,产生一个分类器。通过一组测试样本,测试分类器,以衡量其有效性。其中有监督又分为分类和回归。

尽管有监督的学习方法已经证明是有效的,并且也得到广泛的应用,但是有监督的学习方法的性能完全由训练样本的数量和质量决定,(P S Bradley, K P Bennett, A Demiriz. Constrained K-Means Clustering. MSR-TR-2000-65,Microsoft Research, 2000-05),主要存在以下两点缺陷: (1)垃圾进、垃圾出。是指分类器的有效性完全依赖于训练样本的质量,当训练样本的质量不高时,很难得到好的分类效果。(2)过分适应训练样本。当训练样本的数量有限时,就会出现过分适应训练样本的现象,从而影响对新到数据的分类性能。简单解决的办法是增加训练样本的数量,但是给训练数据分类是一项极其耗费时间的工作,甚至有些情况下是不可能的。比如:对于有些问题,人们还不知道问题的正确答案,因此“增加训练样本的数量”看似简单,实际上并不简单。

有监督的学习方法和无监督的学习方法的目标不同:有监督的学习方法的目标是建立问题域的预测模型,无监督的学习方法的目标是通过数据分析以发现有趣的模式或结构。聚类方法是一种无监督的学习方法。需要聚类的数据对象没有标记,需要由聚类算法自己确定。由于对数据对象不具备任何背景知识,聚类算法采用相同的原则对这些数据进行分析,聚类结果是否有效依赖于数据集对事先所制定的原则(假设)的符合程度。然而,在有些应用中,聚类算法 这种通用的原则过于“僵硬”,有时会产生错误的结果。

有监督的学习方法和无监督的学习方法是两种极端的情况。(K Nigam, A McCallum, S Thrun. Learning to classify from labeled and unlabeled documents[C]. In: Proceedings of the 15th National Conf on AI, 792-799)有监督的学习方法需要每个数据记录都有类标号,而无监督的学习方法则不考虑任何指导性信息。就学习而言成功的学习是尽可能充分利用通过各种渠道获得的有用信息,于是产生了一些新的学习方法,如:弱监督学习(weak supervised)和半监督学习(semi-supervised)方法,([2])能够在降低训练样本数量的前提下利用特定领域的背景知识。


半监督学习理论简述:


半监督学习有两个样本集,一个有标记,一个没有标记.分别记作

Lable={(xi,yi)},Unlabled={(xi)}.并且数量上,L<<U.

1.      单独使用有标记样本,我们能够生成有监督分类算法

2.      单独使用无标记样本,我们能够生成无监督聚类算法

3.      两者都使用,我们希望在1中加入无标记样本,增强有监督分类的效果;同样的,我们希望在2中加入有标记样本,增强无监督聚类的效果.

 

一般而言,半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类.也就是在1中加入无标记样本,增强分类效果.

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值