ICLR 2022 | GraphENS:用于类别不平衡节点分类的邻居感知自我网络生成

1332731579f2ce262d8e850dc0ba60c9.gif

©作者 | 陈景岩

单位 | 南京大学

研究方向 | 图神经网络

4741c49b5858e104b0756c1582961880.png

论文标题:

GraphENS: Neighbor-Aware Ego Network Synthesis for Class-Imbalanced Node Classification 

论文链接:

https://openreview.net/forum?id=MXEl7i-iru

这是一篇针对类别不平衡问题的数据生成文章。

Abstract

在不平衡分类任务中,由于 GNN 中的消息传递,相比于过拟合少类节点而言,GNN 会对少类节点的邻居过拟合更加严重(本文的新观点)

针对上述问题作者提出了一种数据生成的方法 GraphENS,其基本步骤是选择一个少类节点 ,和一个其他类的节点 ,根据这两个节点生成一个 节点。同时,根据两个母节点的 ego network 之间的相似性为 节点设计一种邻居采样方法。

本文的主要贡献有:

  • 展示并说明了 GNN 会对少类节点的邻居出现严重的过拟合,这种现象称为 neighbor memorization。少类节点越少,这种现象就越严重。

  • 根据两个母节点的 ego network 为新节点生成邻居,缓解了 neighbor memorization。此外在 的生成过程中,根据节点特征的显著性防止了有害的特征注入到

  • 在不平衡的数据集上做实验,效果超过了许多 baselines。

e9c05922fb6fa29dc832b808973a7197.png

Neighbor Memorization

本节作者展示了 Neighbor Memorization,通过实验说明了 GNN 对邻居的过拟合要比对少类节点本身的过拟合更严重。

1.1 Overfitting to minor classes

作者首先研究了对少类节点本身的过拟合问题,在数据集 PubMed 上构造了不平衡率为 100 的数据(多类/少类 = 100),采用两层 256-dim 的 GraphSAGE 训练了 2000 个 epoch,得到了以下结果:

83c0fe95e55f099534d3e5ab4e6c1252.png

实线是少类样本的 Acc,虚线是整体的 Acc。对比 Train 和 Test 可以看出,现有针对不平衡的方法对少样本有严重的过拟合问题,而 GraphENS 对此有缓解。

下一节作者将验证这到底是因为 GNN 对少类节点本身的特征过拟合,还是对其邻居结点过拟合。

1.2 Neighbor memorization problem

作者在此采用了两组置换实验对比验证。

1.2.1 Node replacing experiment

e0328f6ddb07b8b224b5c550b615bcb4.png

▲ Seen节点来自训练集,Unseen节点来自测试集

作者首先在训练集中选择一个替换节点 ,再分别在训练集和测试集中采样节点 、、 作为提供特征的节点。将二者的特征分别换给 ,并统计其分类准确度。 提供的特征作为对照组。

这个实验相当于把不同的特征换到相同的邻居环境下,看看在邻居结构不变的情况下,改变中心节点的特征对分类效果的影响。

1.2.2 Node replacing experiment

3440407308d2bcb7f92b762b0162f723.png

这里的采样和 1 中类似,但这里是把一个节点分别换到了两个邻居结构中,再统计节点的分类效果。换到 的邻居中作为对照组。

这个实验相当于把一个节点换到不同的邻居环境下,看在节点本身特征不变的情况下,改变邻居环境对分类效果的影响。

上述两个实验结果为:

6a6d90b0f5ef8e614f8de4c9b55bcfb1.png

▲ RW:re-weight,OS:over sampling

对比两张图相同位置下的红色柱可以发现,更换邻居环境后,分类效果比更换节点特征差很多。由此作者论证了 neighbor memorization 对分类效果的影响。


866d4c480251dfd2568c91062d952963.png


GraphENS

GraohENS 包括两部分:

  • 选择两个母节点 、,用于后续的节点 的生成和邻居选择;

  • 根据两个母节点的 ego network 相似性,为 生成邻居采样概率,并进行邻居采样;

  • 根据节点的特征显著性,为 进行特征生成。

e7decae644f261c559f6e99a7c7ffe69.png

2.1 Neighbor Sampling

这一步是从两个母节点的邻居中,根据 ego network 的相似性为邻居结点生成一个采样概率,并通过采样确定 的邻居节点。ego network 就是指节点和一阶邻居组成的小网络。

首先,构造两个母节点的 Logits:

6598ffda9e8590a209be2e0380734300.png

随后,根据两个节点的 KL 散度衡量两个 ego network 的相似度:

f9486e82b0e27955b2a496ba5731bf37.png

最后为每个节点生成一个采样概率:

d54c0b1e55f08fd9b73937a70c9743b1.png

c7c33be5b52f6c82a3bd05fed349afde.png

这里的注意到 ,因此 。也就是 的邻居节点不会太靠近 。同时 随 KL 散度增大而增大,也就是如果 的邻居差距越大,采样的邻居越靠近

邻居节点的采样数量由图中节点度数的分布决定(比如统计均值),以保证节点度数的稳定。

2.2 Saliency-based Node Mixing


本节作者构建了一个基于特征显著性的节点混合策略,用于生成 。


Feature Saliency

在此,作者通过损失函数的反向传播确定特征的显著性,具体而言对于节点 v,其第 i 维特征的显著性为:

4b364a9a4c120e1582028ef269a88f87.png

一个直观的解释是,损失对 X 的偏导刻画了变量的轻微变化对损失的影响大小,因此如果数值越大,则认为该特征越具有显著性。节点 v 的显著性向量为:。

Node mixup

62644d9cde4b60ba1c89e67ff5572087.png

其中 ,是一个超参数。,是一个 mask vector,用于抹去 里 K% 的特征(设置为 0)。其中 k 是超参数:

d00518f83910aeeaa23704458cf3a698.png

哪些位置被抹去,由一个概率分布 决定。按照这个概率采样,将 K% 的位置抹去为 0。

注意这里,节点混合的出发点是,我们想生成靠近少样本的数据点(解决不平衡),同时添加适当的噪音。因此如果 差距较大,应该多保留 的特征。同时对于 里较为显著的特征(较强的噪音),也应该抹去(越显著,其被采样的概率越大)

be10a565fc5a40b2ba42896278969232.png


Experiments

f7aae2ca5183e0326c0abae753500a3f.png

d05ef69cbbfae9b93f6a8f1771b8d37d.png

d03f015cf3fe41c6df270b5cf30ef905.png

  • w/o PS:把邻居相似度用随机值代替

  • w/o SM:去掉节点特征显著性,置  

  • w/o SM,NS:去掉节点特征显著性,同时把 的邻居置为和 相同

接下来作者对比了 来自于所有类,以及只来自于一类的实验效果:

7cd80e09496b8bab8734939ee31dcc9d.png

实验表明从所有类中随机选择更有利于模型效果。

类别的选择依据概率分布 ,选择一类后,等概率从类别中随机选择一个节点作为 。

Whole Algorithm

bdb170b6decc2eedac1733d593106dec.png

更多阅读

7c39526649b833bc9011570d9952697a.png

c0978d4a74c4ac2e997d2b3f1af395ad.png

58d4dd243718cb5d5f907a52d5ec2903.png

857fb0b14c2b2f4a12e88f65c61751d3.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

6c1da12ed889f36cf0671a955cd2b94b.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

455e42fa040b77bbd34230003a5a8ac3.jpeg

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值