论文标题:
Topology-Imbalance Learning for Semi-Supervised Node Classification
论文链接:
https://arxiv.org/abs/2110.04099
代码链接:
https://github.com/victorchen96/renode
稿件作者:
陈德里
论文作者:
陈德里,林衍凯,赵光香,任宣丞,李鹏,周杰,孙栩
论文机构:
微信AI & 北京大学
联系作者:
delichen@tencent.com
研究动机
类别不均衡(Class Imbalance)是真实场景中非常常见的问题,受到了学界和业界非常多的关注。一般在我们提及类别不均衡时,默认指的是数量不均衡:即不同类中训练样本数量的不一致带来的模型于不同类别学习能力的差异,由此引起的一个严重问题是模型的决策边界会主要由数量多的类来决定 [1]。
但是在图结构中,不同类别的训练样本不仅有在数量上的差异,也有在位置结构上的差异。这就使得图上的类别不均衡问题有了一个独特的来源:拓扑不均衡。而目前学界缺乏对于拓扑不均衡相关问题的研究。这个工作最主要的动机就是研究拓扑不均衡的特点,危害以及解决方法,希望能够引起社区对拓扑不均衡问题的重视。
▲ 图1 拓扑不均衡问题与ReNode方法
研究拓扑不均衡有哪些特点?为什么要研究它?
1. 拓扑不均衡广泛存在于节点分类中
抽象于真实问题的图结构往往有着复杂的节点间连边关系,而不同类之间的拓扑结构往往是不对称的;而具体到节点分类任务中,标注(训练)节点在图上的分布也是不均匀的;这不对称且不均衡的特点使得不同类别的拓扑结构对于训练的影响是天然不同的,也使得拓扑不均衡问题天然存在于节点分类任务中