基于图的半监督学习的交互式图构造
1 文章概要
1.1 摘要
半监督学习(SSL)提供了一种通过使用未标注样本(unlabeled samples)来提高预测模型(如分类器)性能的方法。一种有效且广泛使用的方法是构造一个描述标注( labeled samples)和未标注样本( unlabeled samples)之间关系的图。实践经验表明,图的质量对模型性能有显著影响。在本文中,我们提出了一种可视化分析方法,该方法可以交互式地构造高质量的图,以获得更好的模型性能。特别地,我们提出了一种基于大余量原理(large margin principle)的交互式图构造方法。我们开发了一个河流可视化和一个混合可视化,它结合了散点图、节点链接图和条形图来传达基于图的SSL的标签传播。基于对传播的理解,用户可以选择感兴趣的区域来检查和修改图。我们进行了两个案例研究,以展示我们的方法如何有助于利用标注和未标注样本来提高模型性能。
1.2 引言
- 问题:监督学习依赖于大量标注样本。标记过程往往过于繁琐,无法跟上数据采集的速度,这导致大量数据中只有少部分数据有标签。半监督学习(SSL)提供了一种通过使用未标注样本来提高机器学习性能的方法。一种有效且广泛使用的方法涉及构造一个图来描述标记样本和未标记样本之间的关系,以便标签信息可以从标记样本传播到未标记样本[1]。对于GSSL方法,图的质量被广泛认为是显著影响学习性能的关键因素。高质量的图中边给出样本的相似性,使得模型泛化能力强。以少量标注的数据构造有质量的图的问题仍尚未解决。
- 现有方法挑战:(1)少量的标记样本不足以对图形质量做出可靠的判断,无法快速定位高风险图;(2)自动算法主要基于假设,但假设很难适用于所有数据,图构造不够灵活,无法产生高质量的图。
- 需求:打开黑盒了解图结构如何影响模型性能;运用专家知识构建高质量的图。
- 新方法:开发了DataLinker,这是一种交互式可视分析工具,可帮助机器学习专家1)探索图结构并理解GSSL中的标签传播,2)参与图形构建过程。
(1)Label Change view 标签更改视图
(图1b)以河流演变的形式显示了标签传播的概览,
(2) Sample view 样本视图
(图1c)显示了由散点图、节点链接图和条形图组成的混合可视化表示的样本的空间分布。
这两个视图协同工作,“标签更改”视图帮助用户选择容易出现问题的样本,选择后,这些样本将在“样本视图”中突出显示,以供进一步检查和修改。
(3)过滤面板
(图1(A))以根据边/节点的属性(例如边重要性、节点不确定性等)过滤边/节点,以帮助快速识别重要部分。
整个界面(图1)有助于专家识别图的哪一部分可能导致性能恶化,并局部修改图结构。这大大减少了高质量图形的搜索空间。 - 评估:使用图像分类的STL-10数据集、用于医学诊断的视网膜图像OTC数据集进行案例研究,DataLinker使专家能够更好地理解数据和数据关系,进而对数据进行适当的更改。
- 系统演示及源代码: http://datalinker.thuvis.org/.