TPAMI 2025 | DG-Mamba:基于选择性状态空间模型的鲁棒高效动态图结构学习

论文创新点

  1. 核化动态消息传递算子:论文提出了核化的动态消息传递算子,将动态图结构学习的二次时间复杂度降低到线性。这一创新通过引入核函数和随机特征估计,显著提高了时空结构学习的效率。

  2. 选择性状态空间模型(SSM):作者将动态图建模为一个自包含的系统,并通过选择性状态空间模型(SSM)进行离散化。这一方法能够捕捉长距离依赖关系,并通过跨快照图邻接矩阵离散化系统状态,增强了全局动态的捕捉能力。

  3. 自监督的相关信息原则(PRI):论文提出了自监督的相关信息原则(PRI),用于正则化动态图结构学习。这一原则通过权衡最相关且最少冗余的信息,增强了学习到的动态结构的表达力和全局鲁棒性。

  4. 硬件感知的动态图选择性扫描机制:作者设计了硬件感知的动态图选择性扫描机制,通过核融合和重计算技术,显著减少了内存和计算开销。

摘要

动态图表现出复杂的时空演化模式,广泛存在于现实世界中。然而,结构不完整性、噪声和冗余导致动态图神经网络(DGNNs)的鲁棒性较差。动态图结构学习(DGSL)提供了一种优化图结构的有前景的方法。然而,除了遇到不可接受的二次复杂度外,它过于依赖启发式先验,难以发现潜在的预测模式。如何高效地优化动态结构、捕捉内在依赖关系并学习鲁棒表示仍然是一个未充分探索的问题。本文提出了DG-Mamba,一种基于选择性状态空间模型(Mamba)的鲁棒高效的动态图结构学习框架。为了加速时空结构学习,作者提出了一种核化的动态消息传递算子,将二次时间复杂度降低到线性。为了捕捉全局内在动态,作者将动态图建模为一个自包含的系统,并通过状态空间模型进行离散化。通过跨快照图邻接矩阵离散化系统状态,作者实现了选择性快照扫描以捕捉长距离依赖关系。为了使学习到的动态结构更具信息表达力,作者提出了自监督的相关信息原则(PRI)用于DGSL,以正则化最相关且最少冗余的信息,增强全局鲁棒性。大量实验表明,DG-Mamba在对抗攻击下的鲁棒性和效率优于现有的最先进基线。

关键字

动态图结构学习,选择性状态空间模型,核化消息传递,相关信息原则,鲁棒性

IV. DG-Mamba: 鲁棒高效的动态图结构学习

本节详细介绍了DG-Mamba,其框架如图2所示。首先,作者提出了一种核化的动态图消息传递算子,以加速空间和时间结构学习。然后,作者通过跨图结构建模和离散化动态图系统,捕捉长距离依赖关系和内在动态,同时保持序列线性复杂度。最后,作者通过自监督的相关信息原则(PRI)提升表示的鲁棒性,权衡最相关且最少冗余的结构信息。

核化消息传递用于高效动态图结构学习

为了高效地学习时空结构,作者提出了在动态图注意力网络上执行的核化消息传递机制,其中可学习的边权重在结构优化和注意力特征聚合中发挥作用。正如大多数文献所假设的,作者做出以下假设。

假设1(动态图马尔可夫依赖):假设遵循马尔可夫链:。给定当前图,下一步图在给定的条件下与过去独立,即:

假设1声明了局部依赖关系,这些依赖关系塑造了图对之间的加权消息传递路径。给定节点在中的第层,下一层的注意力聚合为:

其中是可学习矩阵。表示在和中的邻居。包含的结构权重以及和之间的消息传递路径,即:

为了简洁起见,作者省略了求和符号的节点限制。直观上,Softmax成对边权重更新和表示聚合在公式(2)和公式(3)中导致了不可接受的二次复杂度。受基于核的方法启发,作者将公式(2)和公式(3)与核函数结合,用于测量相似性,即:

通过随机特征进行核估计:与其显式地找到从表示空间到再生核希尔伯特空间的特征映射并通过内积计算核,Mercer定理保证如果且仅如果是正定核,则存在一个隐式定义的函数,即:

通过这种方式,公式(4)可以转换为更简单的形式:

值得注意的是,是不可约的,因为它是矩阵操作。值得注意的是,两个求和项大大降低了二次复杂度,因为它们可以一次性计算并存储。直观上,核可以通过正随机特征(PRF)进行估计,用于Softmax近似,满足Mercer定理,即:

其中是核的投影维度,是随机特征,向目标嵌入空间偏移。

长距离依赖选择性建模

尽管核化的时空消息传递已经降低了二次复杂度,但这一成功依赖于假设1,这大大妥协了马尔可夫条件。然而,现实世界的动态图可能非常长,并且表现出不确定的周期性变化,其特征是图快照之间的长距离依赖关系,局部依赖关系的约束显著阻碍了其选择性特征捕捉。

动态图系统建模:为了在不增加空间计算复杂度的情况下加强全局长距离依赖关系的选择性建模,作者提出将动态图构建为一个自包含的系统,并使用状态空间模型进行建模。具体来说,SSMs由状态转移矩阵和两个投影矩阵,定义。给定连续输入序列,SSM更新潜在状态和输出,即:

其中控制当前状态在全局视角下的演化,描述输入如何影响状态,响应当前状态如何转换为输出。

为了在深度学习设置中有效集成公式(11),必须离散化连续系统。然而,有两个关键问题需要解决:如何使SSMs对每个时间步的输入具有注意力感知,以替代消耗二次复杂度的自注意力机制?以及如何将优化的跨图结构集成到状态更新过程中,以便考虑图之间的加权消息传递路径?

通过跨图结构进行选择性离散化和参数化:为了解决上述问题,作者提出了动态图选择性扫描机制,该机制离散化系统参数(,,等)作为每个步骤输入的函数,以选择性控制图序列的哪些部分以及多少注意力可以流入隐藏状态,并通过跨图结构参数化系统状态,以将局部依赖关系集成到长距离全局依赖关系的捕捉中。

鲁棒相关结构正则化

研究目标的最后一个里程碑是增强更新后的表示对周围环境中潜在噪声和对抗攻击的鲁棒性。这是一个双重目标:虽然学习到的隐式结构表示内在依赖关系,但物理结构的原始图包含丰富的可解释性语义。鲁棒的DGSL应该期望从信息论的角度学习最小但充分的结构信息。

相关信息原则(PRI):为了减少冗余结构信息并保留关键预测模式,作者利用自监督的相关信息原则(PRI)来制定动态图结构学习的标准,该原则扮演结构正则化器的角色。

定义1(DGSL的PRI):给定动态图,DGSL的相关信息原则旨在通过以下方式正则化优化图:

其中表示香农熵,用于测量的冗余性。是反映两个项之间差异的散度。超参数在冗余减少和预测模式保留之间进行权衡。较大的导致从输入动态图中保留更多信息,反之亦然。

V. 实验

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值