ICML 2023 | 对多重图进行解耦的表示学习方法

cfd5769358ce7b1d2ebf46ef0903d454.gif

©作者 | 焦子豪

单位 | 南京邮电大学

f2f71509e5617b8d464f3d979670170d.png


Introduction

无监督多重图表示学习(UMGRL)受到越来越多的关注,但很少有工作同时关注共同信息和私有信息的提取。在本文中,我们认为,为了进行有效和鲁棒的 UMGRL,提取完整和干净的共同信息以及更多互补性和更少噪声的私有信息至关重要。

为了实现这一目标,我们首先研究了用于多重图的解缠表示学习,以捕获完整和干净的共同信息,并设计了对私有信息进行对比约束,以保留互补性并消除噪声。此外,我们在理论上分析了我们方法学到的共同和私有表示可以被证明是解缠的,并包含更多与任务相关和更少与任务无关的信息,有利于下游任务。大量实验证实了所提方法在不同下游任务方面的优越性。

3c4bb132f437b804a13c2c032a255a5d.png

论文标题:

Disentangled Multiplex Graph Representation Learning

论文链接:

https://openreview.net/pdf?id=lYZOjMvxws

代码链接:

https://github.com/YujieMo/DMG

62f410c88089491b376db72c22063df9.png


Motivation

以前的 UMGRL 方法旨在隐式提取不同图之间的共同信息,这对于揭示样本的身份是有效和鲁棒的。然而,它们通常忽视了每个图的私有信息中的互补性,并可能失去节点之间的重要属性。

例如,在多重图中,其中论文是节点,边代表两个不同图中的共同主题或共同作者。如果一个私有边(例如,共同主题关系)仅存在于某个图中,并连接来自相同类别的两篇论文,它有助于通过提供互补信息来降低类内差距,从而识别论文。因此,有必要同时考虑共同信息和私有信息,以实现 UMGRL 的有效性和鲁棒性。

基于有助于识别样本的共同信息,捕获不同图之间的所有共同信息(即完整的)是直观的。此外,这种完整的共同信息应该仅包含共同信息(即干净的)。相反,如果共同信息包含其他混淆的内容,共同信息的质量可能会受到损害。

因此,第一个问题出现了:如何获得完整和干净的共同信息?另一方面,私有信息是互补性和噪声的混合。考虑引文网络的同一个示例,如果私有边连接来自不同类别的两篇论文,它可能会干扰消息传递,应该作为噪声被删除。因此,第二个问题出现了:如何保留私有信息中的互补性并去除噪声?

然而,以前的 UMGRL 方法很少探讨了上述问题。最近,已经开发了解耦表示学习方法,以获得共同和私有表示,但由于多重图中节点之间的复杂关系以及图结构中的互补性和噪声,将它们应用于解决 UMGRL 中的上述问题是具有挑战性的。为此,我们提出了一种新的解耦多重图表示学习框架,以回答上述两个问题。

8a8b5a3eca21759abb9e52a468ed2226.png

Method

f01b21c591bdb26fc3f57bc8e1e79fe2.png

Notations

表示多重图,表示多重图中的第   张图,表示图的数量。

本文模型 DMG 首先通过一个共同变量 学习到经过解耦的共同表示以及私有表示 ,接着获取到融合表示。

3.1 Common Information Extraction

以前的 UMGRL 方法(例如,图之间的对比学习方法)通常通过最大化两个图之间的互信息来隐式捕获不同图之间的共同模式。例如,为了提取共同信息,STENCIL(Zhu等人,2022)最大化每个图与聚合图之间的互信息,而 CKD(Zhou等人,2022)最大化不同图中区域表示和全局表示之间的互信息。

然而,由于它们未能将共同信息与私有信息解耦,因此这些努力不能明确地捕获完整且干净的共同信息。为了解决这个问题,本文研究了解耦表示学习,以获得完整且 clean 的共同信息。

具体地,首先使用图卷积层 生成节点表示 :

e7981f0988fdca4a298353ae54116d26.png

表示一个带权重的自环; 表示度矩阵; 表示卷积层 的权重矩阵。

接着使用 MLP 来促进每张图共同和私有信息的解耦过程,分别将节点嵌入 映射为共同表示和私有表示 。

给定每张图的共同表示 ,对齐这些表示最简单的方法使让它们彼此相等。然而这样做会影响共同表示的质量。在本文中,我们通过奇异值分解操作引入了一个具有正交性和零均值的公共变量 到共同表示中。然后,我们对公共表示 与公共变量 之间进行匹配损失,旨在逐渐对齐来自不同图的共同表示,以捕获它们之间的完整共同信息。匹配损失的公式如下:

c90d87408406afb5dba2143aa7f13c48.png

的作用是作为所有图共同表示之间的一个桥梁,使得这些表示具有较好的一致性:。

然后,为了解耦公共和私有表示,我们必须强化它们之间的统计独立性。值得注意的是,如果公共和私有表示在统计上是独立的,那么必须满足:

025960663825f93bf7f35eba016f44ae.png

显然,通过最小化 之间的相关性,可以实现公共和私有表示之间的独立性。特别是,相关性损失是通过计算 Pearson 相关系数来获得的,即:

2a369989016a561409b325b837176cd9.png

我们期望通过匹配损失(即获得完整的共同信息)和相关性损失(即获得干净的共同信息)来获得清晰的共同表示 中的共同信息。然而,在无监督框架下,学得的共同和私有表示可能是微不足道的解决方案。

常见的解决方案包括对比学习方法和自编码器方法。对比学习方法引入大量负样本以避免微不足道的解决方案,但可能会引入大量的内存开销。自编码器方法采用自编码器框架,通过重构损失来促进编码器的可逆性,以防止微不足道的解决方案。然而,现有的图自编码器旨在重构直接的边缘,忽略了拓扑结构,并且计算成本高昂。

为了解决上述问题,我们研究了一种新的重构损失,以同时重构节点特征和拓扑结构。具体而言,我们首先将共同和私有表示连接在一起,然后使用重构网络 获得重构的节点表示 。我们进一步进行特征重构和拓扑重构损失,以分别重构节点特征和局部拓扑结构。因此,重构损失可以表述为:

55cc1edf33201b69e7648865972e96a3.png

, 表示采样的邻居数。

在上式中第一项鼓励 重构原始节点特征,第二项鼓励 重构拓扑结构。

3.2 Private Information Constraint

私有信息是补充信息和噪音的混合物。因此,鉴于学习到的私有表示,我们希望进一步回答 3.1 节中的第二个问题,即保留补充信息并消除私有信息中的噪声。此外,多重图的私有信息主要位于每个图的图结构中,因为不同图的节点特征是从共享特征矩阵 X 生成的。因此,我们研究了在每个图结构中保留互补边并去除噪声边。

首先提供了以下有关图结构中补充信息和噪声的定义:

  • 对图 上的任意私有边,即 ,若节点对 所属的类别相同,那么 将是图 的一条补充边,否则是一条噪声边。

根据定义 3.2,每个图中的私有信息分为两部分,即补充边和噪声边,根据节点对的类别。然而,在无监督方式下,节点标签不可用。为解决这个问题,在这项工作中,我们将节点对(vi, vj)的标签信息近似为共同变量 之间的余弦相似度:

2f1ab640c0953500fe3b3a5f3ea21ec1.png

给定边集 中所有节点对的余弦相似度,进一步假设具有最高相似度的节点对属于同一类,具有低相似度的节点对属于不同类。因此,对于连接节点的高相似性边是补充边,表示为 ,而对于连接节点的低相似性边是噪声边,表示为 。直观地,应保留补充边,而应删除噪声边。

设计了一个对比模块,用于进行对比损失:

dca3e7d9e2df081e2a40dda10c3d08af.png

3.3 Objective Function

76ee4a34bc8254424a539d180ddb9056.png

经过优化,预计所提出的 DMG 将获得完整且干净的公共表示,以及更多互补性和更少噪声的私有表示,以实现有效且稳健的 UMGRL)。然进行平均池化(LeCun等人,1989)来融合所有图的私有表示,以获得总体的私有表示 P,即

feae9d4f57e1b2d0150b90957438a014.png

最后,我们将总体的私有表示 P 与共同变量 S 连接起来,获得最终的表示 Z。


3afde9ecb54830c33c530e5ceda27a1e.png

Experiments


4.1 Node Classification

cd5ebf3d5415be38b708af120c2b82d0.png

4.2 Node Clustering

14e9960dee63c6043a51da3748994008.png

4.3 Single-view graph datasets

23e959c8937d028a9ca7b3bad14a7aba.png


1ed2ba02479791c43de3a3bafc7d5e22.png


Conclusion

本文提出了一个用于多重图的解耦表示学习框架。为实现这一目标,我们首先解耦了共同表示和私有表示,以捕获完整和干净的共同信息。我们进一步设计了对私有信息进行对比约束,以保留互补性并消除噪声。理论分析表明,我们方法学到的共同和私有表示可以被证明是解耦的,包含更多与任务相关的信息和更少与任务无关的信息,有利于下游任务。广泛的实验结果表明,所提出的方法在不同的下游任务中在有效性和鲁棒性方面始终优于现有方法。

更多阅读

e6aa5c50a8ff490a3cb1003d9708c48f.png

3f485d95b428af0d7908c2b1a7ba5836.png

8f38e33bbba2dfd72ebcb5c474be88e9.png

ea3bcbdc665d4d9f451d3232ba8677ca.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

e9b0ca1ab1939da4ec66dc5f1dc67300.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

02e95682759df4a51b4f8c41dcc421da.jpeg

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AIGC(Artificial Intelligence Generated Content,人工智能生成内容)的重要性体现在以下几个方面: 内容创作效率提升: AIGC能够快速生成大量高质量的内容,包括文本、像、音频、视频等,极大地提高了创作效率。这不仅降低了人力成本,也使得内容更新和迭代的速度加快,满足了信息爆炸时代人们对新鲜内容的高需求。 个性化和定制化服务: AIGC可以根据用户的需求和偏好自动生成个性化的内容。这种能力在教育、娱乐、营销等领域具有巨大价值,能够提供高度定制化的用户体验,增强用户黏性和满意度。 创新与发现新应用: AIGC技术的不断发展和普及促进了新的应用场景和商业模式的诞生。通过降低开发门槛,更多的开发者和企业能够探索和实验AIGC的应用,有可能催生出全新的现象级应用和服务。 商业效益增长: AIGC在数字商业化领域具有显著优势。它能够赋能营销策略,提高广告和推广的精准度和效果,从而带动企业收入的增长。同时,通过自动化的内容生成,企业可以节省资源并专注于核心业务的创新和发展。 知识传播与教育: AIGC能够生成教育材料、教程和知识摘要,帮助人们更高效地获取和学习新知识。在教育领域,AIGC可以个性化定制学习路径和内容,适应不同学生的学习速度和方式。 行业效率优化: 在保险、出版、法律等行业,AIGC可以自动处理大量的文档、报告和合同,提高工作效率,减少人为错误,并提供数据分析和决策支持。 学术研究与伦理考量: AIGC在学术研究中的应用需要遵循特定的使用边界和准则,以防止学术不端行为。明确的指南有助于确保研究成果的真实性和可信度,同时推动AI技术在科研领域的健康发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值