论文《Is Homophily A Necessary for Graph Neural Networks?》笔记

论文《Is Homophily A Necessary for Graph Neural Networks?》笔记

发表在2022 ICLR会议上,引用量221,作者是该领域大佬的学生。

ICLR会议简介:

全称International Conference on Learning Representations(国际学习表征会议),深度学习顶会。

查询会议:

  • 会伴:https://www.myhuiban.com/
  • CCF deadline:https://ccfddl.github.io/

本文的研究内容:同质性(Homophily)对于GNNs是否是必要的。

先验知识:

1、homophily & homophily assumption(同质性&同质性假设)

Homophily(同质性)是一个社会网络和社会心理学中的概念,指的是相似个体之间更有可能建立联系或关系的趋势。这种现象在各种社交环境中普遍存在,包括友谊、婚姻、职业网络等。在网络科学中,同质性也用来描述网络中节点之间因为共享某些特征或属性而倾向于彼此连接的倾向。

Homophily Assumption(同质性假设)是社交网络分析中的一个核心假设,它假设网络中的个体倾向于与自己相似的其他个体建立联系。这种假设基于观察到的社交现象,即人们倾向于与拥有相似特征(如年龄、性别、种族、兴趣、社会经济地位等)的人交往。同质性假设在社交网络分析、信息传播模型、网络形式理论等多个领域都有重要应用。

在图论和网络科学中,同质性假设对理解和预测网络结构和动态具有重要意义。例如:

  • 社区检测:在社交网络中,同质性假设可以帮助识别由具有相似特征的个体组成的社区或群体。
  • 信息传播:同质性假设可以解释信息如何在网络中传播,因为相似的个体更有可能分享和采纳相同的信息或观点。
  • 网络演化:同质性假设有助于理解网络如何随时间演化,因为新的连接往往在已经具有相似特征的个体之间形成。

然而,需要注意的是,同质性假设并不是在所有情况下都成立。在某些网络或情境中,也可能观察到异质性(Heterophily,通常翻译为异配性,Homophily对应翻译为同配性),即不同的个体之间建立联系。异配性可以增加网络的多样性,促进不同观点和信息的交流。

在设计算法和模型来分析和预测网络行为时,考虑同质性假设是非常重要的,它可以帮助提高模型的准确性和预测能力。同时,理解同质性和异配性在不同网络中的作用,对于深入分析社交结构和动态具有重要意义。

2、同质性与GCN的关系

当应用于半监督节点分类时,由于同质性假设(像吸引一样),GNN被广泛认为工作得很好,而不能推广到不同节点连接的异配图上。最近的研究设计了新的架构来克服这种与异配性相关的限制。然而,我们根据经验发现,标准图卷积网络(GCNs)实际上可以在一些常用的异配图上取得很强的性能。(引自摘要)

When applied to semi-supervised node classification, GNNs are widely believed to work well due to the homophily assumption (“like attracts like”), and fail to generalize to heterophilous graphs where dissimilar nodes connect. Recent works have designed new architectures to overcome such heterophily-related limitations. However, we empirically find that standard graph convolutional networks (GCNs) can actually achieve strong performance on some commonly used heterophilous graphs. (come from abstract)

其中,heterophilous graphs表示异配图,即具有异配性(heterophily)的图。

总结一下:一般的研究认为GCN只适用于具有Homophily Assumption(同质性假设)的图,而不适用于异配图,并且针对异配图设计了专门的GNNs。但是,本文的研究发现,GCN也可以在某些异配图上取得很好的性能。(提出问题:**为什么GCN可以在这些异配图上取得好的性能?这些异配图有哪些特点?**然后展开研究。)

展开研究:

1、图1:GCN在其上取得完美性能的异配图。(下图)
在这里插入图片描述
问题:Q:为什么在这样的图上可以取得好的节点分类效果?这样的图有什么特点?

2、本文贡献

1、我们揭示了同质性假设不是GCN模型的必要假设在一定条件下,GCN模型可以很好地优于某些针对异配图设计的神经网络模型

2、我们仔细描述了这些条件,并通过研究嵌入学习过程,提供了关于GCNs如何在这些条件下获得良好SSNC(Semi-supervised node classification,半监督节点分类任务)性能的理论理解

3、我们仔细调查了使用的同配性和异配性的基准,并利用我们的理论揭示了GCN在它们上面的表现的原因。

具体阐述:

在我们的工作中,我们通过经验发现GCN(一个基本的、具有代表性的GNN模型)在经过仔细的超参数调整后,实际上能够在一些异配图上优于这种专门为异配图设计的神经网络模型(heterophily-specific models)

我们的工作阐明了这种直觉,并将其扩展到一个更一般的情况:简单地说,给定一个图(异配图或同配图),如果具有相同标签的节点共享相似的邻域模式,GCN有可能获得良好的性能。我们通过研究从GCN模型中学到的节点嵌入,从理论上支持这一论点。

我们发现同配图总是满足这样的假设,这就解释了为什么GCN通常很适用于它们。另一方面,同时存在**“好”和“坏”的异配性**,GCN实际上可以在“好”的异配性上获得更强的性能,而它们通常在“坏”的异配性上失败。

我们的工作描述了这些设置,并提供了一个新的视角和坚实的步骤,以更深层次地理解异配图。

3、Definition

Homophily的定义:边同配性h = 同配边数/总边数。

同配边就是连接两个标签相同的节点的边。

4、Observation(观察发现)

在这里插入图片描述

发现在异配图数据集Chameleon和Squirrel上,经过参数优化的GCN模型可以取得比专门为异配图设计的异配图神经网络算法(例如H2GCN)更好的性能。

5、实证研究

图:同配图(Cora)和异配图(Chameleon、Actor、Cornell)上的垮类邻域相似性
在这里插入图片描述

通过对图数据集节点的邻域进行分析,发现Cora和Chameleon的类内邻域相似性大于类间邻域相似性,Actor和Cornell的类内邻域相似性与类间邻域相似性相差不大。

前者为“好“的异配性,GCN可以获得好的性能,后者为”坏“的异配性,GCN不可以获得好的性能。

总的来说这篇文章要讲的东西还是挺清晰的,但我不知道为什么能写这么多的篇幅,后面好好研究一下。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值