从异构数据学习的自举方法
1. 引言
在机器学习领域,多数现有的算法是为处理单一数据源的数据而设计的。然而,在现实生活的许多应用场景中,与学习问题相关的可能存在多个数据源。在这种情况下,同时有效地探索和利用这些信息源以做出更好的推断是非常有必要的,这种学习问题通常被称为多视图学习,其中每个视图对应一个数据源。
多视图学习在不同的应用领域有很多实例。例如,在蛋白质分类问题中,蛋白质可以通过多种生物数据来描述,像蛋白质相互作用网络和基因表达谱。前者的数据可以自然地用图来表示,而后者中每个蛋白质则被表示为一个实数向量。此外,蛋白质在细胞中的共定位、结构相似性以及蛋白质序列数据等其他类型的数据也可能存在。由于不同的数据源描述了蛋白质功能的不同方面,综合利用所有这些数据源有助于提高分类的准确性。
当数据源以图的形式呈现时,一种常见的策略是在学习或推断之前将多个图的信息进行合并,主要有两种图合并方法:图的求和以及谱核的求和。但在本文中,我们采用了一种不同的方法。我们不进行图或核的合并,而是在每个图上训练一个分类器,让其独立地对(未标记)实例的标签进行预测。该算法以迭代的方式工作,在每一轮学习中,将部分分类器预测的标签添加到其余分类器的训练集中。这里我们假设是半监督学习的设置,即除了已知标签的训练实例外,还提供了需要进行预测的未标记实例。
我们提出的方法可以看作是两种流行的半监督技术的结合。一方面,由于该方法使用前一次迭代中预测的标签来扩充下一次迭代的(标记)训练集,这与自举法(更准确地说是协同训练算法)类似;另一方面,在每次迭代中,该方法使用基于图的半监督学习器,因此它也是基于图的。此前已有相关工作尝试将自举法和基于图的半监督方法结合起来,而本文将这一研究扩展到了存在多个
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



