机器学习基础之半监督学习

最新推荐文章于 2024-02-01 19:44:21 发布

放羊郎

最新推荐文章于 2024-02-01 19:44:21 发布

阅读量754

点赞数

分类专栏：人工智能读后感人工智能技术文章标签：机器学习学习算法半监督学习理论基础

本文链接：https://blog.csdn.net/suoxd123/article/details/89219659

版权

读后感同时被 3 个专栏收录

39 篇文章 0 订阅

订阅专栏

人工智能

29 篇文章 1 订阅

订阅专栏

人工智能技术

23 篇文章 0 订阅

订阅专栏

文章目录

生成式方法
半监督支持向量机
图半监督学习
基于分歧的方法
半监督聚类

转自： https://www.zhenxiangsimple.com/2019/04/11/tech-ml-bjdxx/

半监督学习是指让学习器的训练不仅仅依赖于对训练样本的标记，而是可以利用未标记的样本实现自主学习的一种方式。相对应的常规基于已标记的样本进行模型训练，然后使用训练的结果对待预测数据进行预测的方式称为主动学习。

生成式方法

生成式方法是直接假设所有的样本数据，不论是否进行了标记，都由同一个未知的模型生成，因此可以通过该模型将未标记的数据跟学习目标建立联系，最终使用EM算法（目标和参数相互迭代）求解得到模型，进而可以实现未标记样本的分类。
如上所述，假定数据分布属于某个模型后，记得得到对应模型的的生成式半监督学习模型，常用的有高斯混合模型、混合专家模型及朴素贝叶斯模型等。但是，如果模型的假设不准确，及模型跟样本分布不一致，则可能会出现较差的结果，具体模型的假设通常需要一定的先验知识，或者对样本数据的领域知识。

半监督支持向量机

半监督支持向量机是支持向量机在半监督学习方向的拓展，标准的支持向量机的目标是找到最大间隔划分的超平面，而板件的支持向量机的目标是穿过低数据密度区域的划分超平面，当然，相同点都是针对二分类问题的学习方法。

图半监督学习

对于一个样本数据集，可以映射为一个图，每个样本集可以对应于图中的节点，如果两个样本之间的相似度高或相关性强，则节点之间可以建立一条边，边的强度对应于样本之间的相似度。
该方法有两个缺陷，第一，存储上开销较大，是空间复杂度为 $O(m^2)$ ，因此很难处理大样本集；第二，图的构建过程仅考虑训练样本集，无法判断待测样本，因此有新样板或待测样本时需要重进建图。

基于分歧的方法

前面介绍的方法都是基于单个学习器的，而基于分歧的方法使用多学习器，考虑多学习器之间的分歧的选择，来决定未标记数据的结果，协同训练是常用的基于分歧的方法。
协同训练的原理是，首先选择多个学习器分别基于已标记样本训练得到分类器，然后在未标记样本中选择最大概率的分类作为伪标记，最后将伪标记提供给其他学习器进行训练；持续迭代这种交叉学习，直到所有学习器的结果不再变化，或者学习次数达到某个预定值。

半监督聚类

聚类本身是一种无监督学习方法，不过常规的样本中都有一些监督的信息，因此可以利用这些监督信息来进行半监督聚类学习，常见的监督信息分两类：第一类基于样本之间关系的必连和勿连，必连指样本必属于同一类，勿连指样本必不属于同一类；第二类是存在已标记的样本。
对于第一类监督信息，约束k均值算法是常用的半监督聚类方法，原理是在保持必连和勿连的前提下，寻找距离当前样本最近的类别，直到分类不再变化。对于第二类监督信息，约束种子k均值算法是常用方法，原理是在保持已标记样本所属分类不变的前提下，寻找距离当前样本最近的类别，直到分类不再变化。

点击查看 (人工智能) 系列文章