python处理mat数据并计算特征与标签的关系_标签传播算法（Label Propagation）及 Python 实现...

最新推荐文章于 2023-08-31 17:55:11 发布

weixin_40009026

最新推荐文章于 2023-08-31 17:55:11 发布

阅读量653

点赞数

文章标签： python处理mat数据并计算特征与标签的关系

本文链接：https://blog.csdn.net/weixin_40009026/article/details/111439351

版权

本文介绍了半监督学习中的标签传播算法（Label Propagation），阐述了其在少量标注数据和大量未标注数据场景下的作用。算法基于平滑、聚类和流形假设，通过构建相似矩阵和迭代传播标签来分类。文中提供了Python实现的详细步骤，包括RBF和KNN图的构建，并展示了两个示例数据集的可视化结果，证明了算法的有效性。

摘要由CSDN通过智能技术生成

原标题：标签传播算法(Label Propagation)及 Python 实现

来源：zouxy09

blog.csdn.net/zouxy09/article/details/49105265

众所周知，机器学习可以大体分为三大类：监督学习、非监督学习和半监督学习。监督学习可以认为是我们有非常多的labeled标注数据来train一个模型，期待这个模型能学习到数据的分布，以期对未来没有见到的样本做预测。那这个性能的源头–训练数据，就显得非常感觉。你必须有足够的训练数据，以覆盖真正现实数据中的样本分布才可以，这样学习到的模型才有意义。那非监督学习就是没有任何的labeled数据，就是平时所说的聚类了，利用他们本身的数据分布，给他们划分类别。而半监督学习，顾名思义就是处于两者之间的，只有少量的labeled数据，我们试图从这少量的labeled数据和大量的unlabeled数据中学习到有用的信息。

一、半监督学习

半监督学习(Semi-supervised learning)发挥作用的场合是：你的数据有一些有label，一些没有。而且一般是绝大部分都没有，只有少许几个有label。半监督学习算法会充分的利用unlabeled数据来捕捉我们整个数据的潜在分布。它基于三大假设：

Smoothness平滑假设：相似的数据具有相同的label。

Cluster聚类假设：处于同一个聚类下的数据具有相同label。

Manifold流形假设：处于同一流形结构下的数据具有相同label。

例如下图，只有两个labeled数据，如果直接用他们来训练一个分类器，例如LR或者SVM，那么学出来的分类面就是左图那样的。如果现实中，这个数据是右图那边分布的话，猪都看得出来，左图训练的这个分类器烂的一塌糊涂、惨不忍睹。因为我们的labeled训练数据太少了，都没办法覆盖我们未来可能遇到的情况。但是，如果右图那样，把大量的unlabeled数据(黑色的)都考虑进来，有个全局观念，牛逼的算法会发现，哎哟，原来是两个圈圈(分别处于两个圆形的流形之上)！那算法就很聪明，把大圈的数据都归类为红色类别，把内圈的数据都归类为蓝色类别。因为，实践中，labeled数据是昂贵，很难获得的，但unlabeled数据就不是了，写个脚本在网上爬就可以了，因此如果能充分利用大量的unlabeled数据来辅助提升我们的模型学习，这个价值就非常大。

半监督学习算法有很多，下面我们介绍最简单的标签传播算法(label propagation)，最喜欢简单了，哈哈。

二、标签传播算法

标签传播算法(label propagation)的核心思想非常简单：相似的数据应该具有相同的label。LP算法包括两大步骤：1)构造相似矩阵；2)勇敢的传播吧。

2.1、相似矩阵构建

LP算法是基于Graph的，因此我们需要先构建一个图。我们为所有的数据构建一个图，图的节点就是一个数据点，包含labeled和unlabeled的数据。节点i和节点j的边表示他们的相似度。这个图的构建方法有很多，这里我们假设这个图是全连接的，节点i和节点j的边权重为：

这里，α是超参。

还有个非常常用的图构建方法是knn图，也就是只保留每个节点的k近邻权重，其他的为0，也就是不存在边，因此是稀疏的相似矩阵。

2.2、LP算法

标签传播算法非常简单：通过节点之间的边传播label。边的权重越大，表示两个节点越相似，那么label越容易传播过去。我们定义一个NxN的概率转移矩阵P：

Pij表示从节点i转移到节点j的概率。假设有C个类和L个labeled样本，我们定义一个LxC的label矩阵YL，第i行表示第i个样本的标签指示向量，即如果第i个样本的类别是j，那么该行的第j个元素为1，其他为0。同样，我们也给U个unlabeled样本一个UxC的label矩阵YU。把他们合并，我们得到一个NxC的soft label矩阵F=[YL;YU]。soft label的意思是，我们保留样本i属于每个类别的概率，而不是互斥性的，这个样本以概率1只属于一个类。当然了，最后确定这个样本i的类别的时候，是取max也就是概率最大的那个类作为它的类别的。那F里面有个YU，它一开始是不知道的，那最开始的值是多少？无所谓，随便设置一个值就可以了。

千呼万唤始出来，简单的LP算法如下：

执行传播：F=PF

重置F中labeled样本的