标签传播算法学习笔记(1)

1. 半监督学习(Semi-supervised Learning SSL)

半监督学习是一种有监督学习和无监督学习相结合的一种方法,其主要思想是基于数据分布上的模型假设,利用少量的已标注数据进行指导并预测未标记数据的标记,并合并到标记数据集中去。

2.完全图

在图论的数学领域,完全图是一个简单的无向图,其中每对不同的顶点之间都恰连有一条边相连。其中每对不同的顶点通过一对唯一的边缘(每个方向一个)连接。n个端点的完全图有n个端点以及n(n − 1) / 2条边,以Kn表示。它是(k − 1)-正则图。所有完全图都是它本身的团。

 

 3.LPA基本思路

1.标签传播算法是基于图的半监督学习方法,基本思路是从已标记的节点的标签信息来预测未标记的节点的标签信息,利用样本间的关系,建立完全图模型。
2.每个节点标签按相似度传播给相邻节点,在节点传播的每一步,每个节点根据相邻节点的标签来更新自己的标签,与该节点相似度越大,其相邻节点对其标注的影响权值越大,相似节点的标签越趋于一致,其标签就越容易传播。在标签传播过程中,保持已标记的数据的标签不变,使其将标签传给未标注的数据。最终当迭代结束时,相似节点的概率分布趋于相似,可以划分到一类中。

4.算法描述

input:u个未标记数据和l个标记的数据及其标签
output:u个未标记数据的标签
第一步:初始化,利用权重公式来计算每条边的权重Wij,得到数据间的相似度
第二步:根据得到的权重Wij, 计算节点j到i的传播概率Tij
第三步:定义一个(l+u)*C的矩阵
第四步:每个节点按传播概率把它周围节点传播的标注值按权重相加,并更新到自己的概率分布
第五步:限定已标注的数据,把已标注的数据的概率分布重新赋值为初始值,然后重复步骤四,直至收敛。

5.举例说明

5.LPA算法缺点

1. 更新顺序:节点标签更新顺序随机,但是很明显,越重要的节点越早更新会加速收敛过程;

2. 随机选择:如果一个节点的出现次数最大的邻居标签不止一个时,随机选择一个标签作为自己标签。这种随机性可能会带来一个雪崩效应,即刚开始一个小小的聚类错误会不断被放大。不过话也说话来,如果相似邻居节点出现多个,可能是weight计算的逻辑有问题,需要回过头去优化weight抽象和计算逻辑。

6.LPA改进

1.给节点或边添加权重(势函数、模块密度优化、LeaderRank值、局部拓扑信息的相似度、标签从属系数等),信息熵等描述节点的传播优先度。这样,在进行邻居节点的最大标签统计的时候,可以将邻居节点的weight权值等作为参考因素。

2.针对LPA算法随机性强的问题,在选择邻居节点中出现次数最多的标签时,将邻居节点与该节点的相似度一并考虑,降低了标签选择的随机性。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值