机器学习基础 之 半监督学习


转自: https://www.zhenxiangsimple.com/2019/04/11/tech-ml-bjdxx/


  半监督学习是指让学习器的训练不仅仅依赖于对训练样本的标记,而是可以利用未标记的样本实现自主学习的一种方式。相对应的常规基于已标记的样本进行模型训练,然后使用训练的结果对待预测数据进行预测的方式称为主动学习。

生成式方法

  生成式方法是直接假设所有的样本数据,不论是否进行了标记,都由同一个未知的模型生成,因此可以通过该模型将未标记的数据跟学习目标建立联系,最终使用EM算法(目标和参数相互迭代)求解得到模型,进而可以实现未标记样本的分类。
  如上所述,假定数据分布属于某个模型后,记得得到对应模型的的生成式半监督学习模型,常用的有高斯混合模型、混合专家模型及朴素贝叶斯模型等。但是,如果模型的假设不准确,及模型跟样本分布不一致,则可能会出现较差的结果,具体模型的假设通常需要一定的先验知识,或者对样本数据的领域知识。

半监督支持向量机

  半监督支持向量机是支持向量机在半监督学习方向的拓展,标准的支持向量机的目标是找到最大间隔划分的超平面,而板件的支持向量机的目标是穿过低数据密度区域的划分超平面,当然,相同点都是针对二分类问题的学习方法。

图半监督学习

  对于一个样本数据集,可以映射为一个图,每个样本集可以对应于图中的节点,如果两个样本之间的相似度高或相关性强,则节点之间可以建立一条边,边的强度对应于样本之间的相似度。
  该方法有两个缺陷,第一,存储上开销较大,是空间复杂度为 O ( m 2 ) O(m^2) O(m2),因此很难处理大样本集;第二,图的构建过程仅考虑训练样本集,无法判断待测样本,因此有新样板或待测样本时需要重进建图。

基于分歧的方法

  前面介绍的方法都是基于单个学习器的,而基于分歧的方法使用多学习器,考虑多学习器之间的分歧的选择,来决定未标记数据的结果,协同训练是常用的基于分歧的方法。
  协同训练的原理是,首先选择多个学习器分别基于已标记样本训练得到分类器,然后在未标记样本中选择最大概率的分类作为伪标记,最后将伪标记提供给其他学习器进行训练;持续迭代这种交叉学习,直到所有学习器的结果不再变化,或者学习次数达到某个预定值。

半监督聚类

  聚类本身是一种无监督学习方法,不过常规的样本中都有一些监督的信息,因此可以利用这些监督信息来进行半监督聚类学习,常见的监督信息分两类:第一类基于样本之间关系的必连和勿连,必连指样本必属于同一类,勿连指样本必不属于同一类;第二类是存在已标记的样本。
  对于第一类监督信息,约束k均值算法是常用的半监督聚类方法,原理是在保持必连和勿连的前提下,寻找距离当前样本最近的类别,直到分类不再变化。对于第二类监督信息,约束种子k均值算法是常用方法,原理是在保持已标记样本所属分类不变的前提下,寻找距离当前样本最近的类别,直到分类不再变化。

点击查看 (人工智能) 系列文章


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

放羊郎

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值