1. 简述
本文提出一种迭代的标签传递算法,利用没有标记的数据来帮助已经标记的数据来进行分类。另外利用基于启发式的最小生成树来和熵最小化来学习参数。
2. 背景
在监督学习当中,我们会有大量已经标记的数据,这样我们就可以很轻松的学习到分类的信息以及依赖的特征。但是当我们只有少量已经标记的数据,而大多数都是没有被标记的话,那么我们就没有办法像监督学习那样,比较轻易的获得分类所依赖的特征。
但是未标记数据与已标记数据之间存在某种空间分布关系,可能存在着不同类别之间会在空间中存在着某种gap,利用这种特殊的空间关系,我们可能可以比较好的划分开这些数据。最常用最简单方法应该是k-NN。
3. Labal Propagation(标签传递)
3.1 问题转化
假设:
- 我们有l个已经标记的数据点,u个没有被标记的数据点,l<<u
- 数据点相近具有相似的标签
创建一个全连接图,把所有的数据节点都连接起来,节点间连接的边都被赋予权重。
其中,是节点间的欧几里得距离,然后是一个用来调节的参数
当然也有别的距离算法,这里对于允许不同的维度下面采用不同的值。
对于每一个节点,都由它的软标记,我们让标记在节