半监督学习

这个是个人对于周志华老师的《机器学习》中半监督学习的笔记整理,强烈建议查看原书!!!

半监督学习

半监督学习的理论基础

聚类假设(clustering assumption)

假设数据存在簇结构,同一簇的样本属于同一类别。

流形假设(manifold assumption)

假设数据分布在一个流形结构上,邻近的样本具有相似的输出值。

三种无标签数据的学习方式

(1)主动学习
(2)半监督学习——纯半监督学习:它假定训练数据中 的未标记样本并非待预测的数据,,纯半监督学习是基于"开放世界"
假设 希望学得模型能适用 于训 练过程 未观察到的数据。
(3)半监督学习——直推学习(transductive learning):假定学习 过程中所考虑的未标记样本恰是预测数据,学习的目的就是在这些未标记样本上获得泛化性能。而直推学习是基于"封闭世界"假设 仅试图对学习过程 观察到的未标记数据进行预测。
在这里插入图片描述

生成式方法

生成式方法(generative methods) 直接基于生成式模型的方法 此类方法设所有数据(无论是否有标记)都是由 潜在的模型" 生成 "的.这个假设使得我 能通过潜在模型的参数将未标记数据与学习目标联系起来,而未标记数据的标记作模型的缺失参数。

书本假设的模型是混合高斯模型,也就是每一类的数据分布都是一个高斯分布(正态分布),因此全体数据的数据分布是一个混合高斯分布。
在这里插入图片描述
使用EM算法求该混合高斯分布的参数,求得之后就可以用高斯公式求未标记样本的标签。

半监督SVM

半监督支持向量机中最著名的是TSVM (Transductive Support Vector Machine) [Joachims, 1999 标准 SVM 一样, TSVM 也是针对二分类问题学习方法。TSVM 试图考虑对未标记样本进行各种可能的标记指派(label assignment) ,即尝试将每个未标记样本分别作为正例或反例,然后在所有这结果中寻求一个在所有样本(包括有标记样本和进行了标记指派的未标记本)上间 隔最大化的划分超平面。一旦划分超平面得以确定,未标记样本的最标记指派就是其预测结果。
在这里插入图片描述

图半监督学习

总的来讲,对于两类的情况就是希望两个样本的向量表示x相近的它的判别函数f(x)也相似,得到等价的能量函数,然后最小化能量函数,通过求导求得未知标签的样本的f(x)。(感觉就是用近邻的思想打标签?)

给定一个数据集,我们可将其映射为一个图,数据集中每个样本对应于图中一个结点。若两个样本之间的相似度很高(或相关性很强),则对应的结点之间存在一条边的"强度" (strength) 正比于样本之间的相似度(或相关性) .我们可将有标记样本所对应的结点想象为染过色,而未标记样本所对应的结点尚未染色.于是,半监督学习就对应于"颜色"在图上扩散或传播的过程.由于一个图对应了一个矩阵?这就使得我们能基于矩阵运算来进行半监督学习算法的推导与分析.

多类别的情况没太看懂。
在这里插入图片描述

基于分歧的方法

与生成式方法、半监督 SVM 、图半监督学习等基于单学习器利用未标记数据不同,基于分歧的方法(disagreement-based methods) 使用多学习器,而学习器之间的"分歧" (disagreement) 对未标记数据的利用至关重要。

基于分歧的方法的代表是协同训练算法。

协同训练正是很好地利用了多视图的"相容互补性"假设。首先在每个视图上基于有标记样本分别训练出一个分类器,然后让每个分类器分别去挑选自己"最有把握的"未标记样本赋予伪标记,并将伪标记样本提供给另一个分类器作为新增的有标记样本用于训练更新。

协同训练算法本身是为多视图数据而设计的,后续理论研究发现,此类算法事实上无需数据拥有多视图,仅需弱学习器之间具有显著的分歧(或差异),即可通过相互提供伪标记样本的方式来提升泛化性能。不同视图、不同算法、不同数据采样、不同参数设置都仅是产生差异的渠道,而非必备条件。
在这里插入图片描述

半监督聚类

第一类监督信息——“必连”和“勿连”的约束

典型代表是约束k means算法,基本上跟k means一样,不过每一次一个样本点加入某个簇之前都会检查是否会违背“必连”和“勿连”的约束。
在这里插入图片描述
第二类监督信息——有少量标记样本

这样的监督信息利用起来很容易:直接将它们作为"种子",用它们初始化 均值算法的 个聚类中心?并且在聚类簇迭代更新过程中不改变种子样本的簇隶属关系.这样就得到了约束种子 均值 (Constrained Seed k-means) 算法。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值