【机器学习西瓜书学习笔记——半监督学习】

最新推荐文章于 2024-08-13 23:24:48 发布

未来、梦想

最新推荐文章于 2024-08-13 23:24:48 发布

阅读量548

点赞数 13

文章标签：机器学习学习笔记

本文链接：https://blog.csdn.net/m0_51148715/article/details/141156326

版权

机器学习西瓜书学习笔记【第十二章】

第十三章半监督学习

第十三章半监督学习

机器学习中基本的学习方法有：监督学习、半监督学习和无监督学习。他们最大的区别就是模型在训练时需要人工标注的标签信息，监督学习利用大量的标注数据来训练模型，使模型最终学习到输入和输出标签之间的相关性；半监督学习利用少量有标签的数据和大量无标签的数据来训练网络；而无监督学习不依赖任何标签值，通过对数据内在特征的挖掘，找到样本间的关系，比如聚类。

13.1 未标记样本

归纳半监督学习假定训练数据中的未标记样本并非待测的数据，而直推半监督学习则假定学习过程中所考虑的未标记样本恰是待预测数据，学习的目的就是在这些未标记样本上获得最优泛化性能。

半监督学习可划分为半监督学习和直推学习。

纯半监督学习
- 基于"开放世界" 假设，希望学得模型能适用千训练过程中未观察到的数据。
直推半监督学习
- 基于"封闭世界"仅试图对学习过程中观察到的未标记数据进行预测。直推半监督学习只处理样本空间内给定的训练数据，利用训练数据中有类标签的样本和无类标签的样例进行训练，预测训练数据中无类标签的样例的类标签。

13.2 生成式方法

基于生成式模型的方法，假设所有数据都是由同一个潜在的模型生成的，这个假设使得我们能通过潜在模型的参数将未标记数据与学习目标联系起来，而未标记数据的标记则可看作模型的缺失参数，通常可基于 $EM$ 算法进行极大似然估计求解。

13.3 半监督 $S V M$

基本思想

①针对二分类问题

②尝试将每个未标记样本分别作为正例或反例，然后在所有这些结果中，寻求一个在所有样本(包括有标记样本和进行了标记指派的未标记样本)上间隔最大化的划分超平面。一旦划分超平面得以确定，未标记样本的最终标记指派就是其预测结果。

优点和注意事项

利用未标签数据： $S 3 V M$ 有效地利用未标签的数据，提高了模型的泛化性能。
降低标签依赖： $S 3 V M$ 的目标是在减少对标签的依赖性的同时，提高分类性能。
过拟合风险：引入未标签样本可能会增加过拟合的风险，因此需要注意模型的泛化能力。
参数调整：如同传统 $S V M$ 一样， $S 3 V M$ 的性能可能受到核函数选择、正则化参数等超参数的影响，需要进行调优。

适用场景

半监督支持向量机它尝试在训练数据中利用未标签样本，以提高分类性能。当标签数据有限的情况下， $S 3 V M$ 可以作为一种有效的选择。

13.4 图半监督

标签传播算法

给定一个数据集，可以将其映射为一个图，数据集中每个样本对应于图中的一个结点。若两个样本之间的相似度很高（或者相关性很强），则对应的结点之间存在一条边，边的强度正比于样本之间的相似度（或相关性）。将有标记样本所对应的结点视作为已经染色，而未标记样本所对应的结点尚未染色。于是半监督学习就对应于“颜色”在图上扩散或者传播的过程。

多类标签传播算法

Label Propagation

Label Propagation算法通过节点之间的边来传播标记，边的权重越大则表示两个节点越相似，则标记越容易传播。

Label Spreading

Label Spreading算法使用了标准化的拉普拉斯矩阵来作为概率转移矩阵；加入了类似于正则化策略的惩罚参数来增加模型的泛化能力。算法思想：距离相近的样本点更有可能具有相同的标签。通过构建有向完全图来表示样本点之间的位置关系，并基于此构建概率转移矩阵来确定未知标签的所属类别。该算法适用于半监督学习任务，可以有效地扩展标记数据集并提高预测准确性。

13.5 基于分歧的方法

数据视图

一个数据对象往往同时拥有多个属性集，每个属性集就构成了一个视图。

假设不同视图具有相容性：即其所包含的关于输出空间的信息是一致的。

协同训练

假设不同视图具有“相容性”，即所包含的关于输出空间 $Y$ 的信息是一致的。在“相容性”基础上，不同视图信息的“互补性”会给学习器的构建带来很大便利。
协同训练正是很好地利用了多视图的“相容互补性”。假设数据拥有两个充分且条件独立的视图，“充分”是指每个视图都包含足以产生最优学习器的信息，“条件独立”则是指在给的类别标记条件下两个视图相互独立。
算法流程

13.6 半监督聚类

半监督聚类是一种集成了有标签数据和无标签数据的聚类方法，其目标是在聚类的过程中利用有标签数据的信息来提高聚类性能。在半监督聚类中，一部分数据集有已知的标签，而另一部分没有标签。

基本思想

有标签数据：利用有标签的数据对聚类过程进行监督或指导，以提高聚类的准确性。
无标签数据：利用无标签的数据进行聚类，从中发现潜在的簇结构。

常见的半监督聚类方法

$C o n s t r ain e d Cl u s t er in g$ ：在这种方法中，用户提供一些先验的约束条件，如样本之间属于同一类或不属于同一类，以引导聚类过程。
$S e l f - t r ainin g$ ：利用已有的有标签数据来初始化聚类模型，然后使用无标签数据进行训练，逐渐将无标签数据加入到已有的聚类中。
$C o - T r ainin g$ ：在半监督聚类中， $C o - T r ainin g$ 方法使用两个或多个视图或特征集，每个特征集对应一个模型。模型在一个视图上训练，然后通过对另一个视图上的数据进行预测来自我训练。
$Sp ec t r a lM e t h o d s$ ：基于谱聚类的方法也可以用于半监督聚类。通过考虑已标签和未标签数据之间的关系，可以在谱聚类中引入先验信息。
$G e n er a t i v e M o d e l s$ ：一些生成模型，如深度生成对抗网络（ $G A N s$ ）或变分自编码器（ $V A E s$ ），也可以用于半监督聚类，通过同时考虑有标签和无标签数据进行训练。