在样本不均衡的任务中,对少数的样本过采样或是生成新样本都能够解决样本不均问题,但是派过采样算法不能为新合成的样本提供关系信息,而这对于图的学习是至关重要的。此外,节点属性是高维的。直接在原始输入域中进行过采样会产生域外样本,影响分类器的准确性。为此,我们提出了一个新的框架,GraphSMOTE,在其中构造一个嵌入空间来编码节点之间的相似性。新样本在这个空间合成,以确保真实性。此外,同时训练一个边缘生成器来建模关系信息,并为这些新样本提供边。这个框架是通用的,可以很容易地扩展到不同的变体中。
INTRODUCTION
在机器学习领域,传统的类不平衡问题得到了广泛的研究。算法可以概括为三组:数据级方法、算法级方法和混合方法:数据级方法采用过采样或下采样技术,力求使班级分布更加均衡;算法级方法通常为不同的类引入不同的误分类惩罚或先验概率;
前两种的混合。
SMOTE通过生成新样本,在少数类的样本与其最近的样本之间进行插值来解决这个问题。摘要过采样法是目前最流行的一种过采样方法,在此基础上提出了许多扩展方法来提高插值过程的有效性。
然而,直接将它们应用到图上可能会得到次优结果。关系是图数据中需要利用的关键信息,少数样本的不充分表示不仅会影响其嵌入质量,而且会影响相邻节点之间的知识交换过程。之前的算法由于其独立同分布假设而不能解决这个问题。本文提出的工作的贡献可以概括如下:
- 提出了一个新的问题-图上学习的节点类不平衡问题。它在现实世界中有很多应用,而这篇论文是我们所知的第一个关