2025必发的方向:图神经网络+Transformer!完美融合全局与局部

2025深度学习发论文&模型涨点之——GNN+Transformer

图神经网络(Graph Neural Networks, GNNs)和Transformer架构分别在非欧几里得数据建模和序列依赖关系捕捉方面展现出卓越的能力。然而,GNNs受限于局部邻域聚合机制,难以建模长程依赖关系;而标准Transformer虽具备全局注意力机制,却难以直接适用于图结构数据。为融合两者的优势,研究者们提出了多种创新方法,如图结构感知的位置编码、基于稀疏化的图注意力机制以及层次化图Transformer架构,以同时捕获局部结构信息和全局交互模式。

这一交叉领域的研究已取得显著进展,涵盖图表示学习、分子建模、推荐系统、知识图谱推理等多个应用场景。例如,Graphormer通过引入空间编码和边编码,显著提升了分子属性预测性能;而GTN(Graph Transformer Network)则通过自适应学习图结构,优化了节点分类任务的表现。此外,近期工作还探索了动态图Transformer、可解释图注意力机制以及多模态图Transformer等方向,进一步拓展了该技术的应用边界。

我整理了一些GNN+Transformer【论文+代码】合集,以需要的同学公人人人号【AI创新工场】发525自取。

论文精选

论文1:

[SIGIR] TransGNN: Harnessing the Collaborative Power of Transformers and Graph Neural Networks for Recommender Systems

TransGNN:利用Transformer和图神经网络的协同力量进行推荐系统

方法

      注意力采样模块:通过语义相似性和图结构信息,为每个中心节点采样最相关的节点,减少计算复杂度并过滤噪声信息。

      位置编码模块:设计了三种位置编码(最短路径、度、PageRank),将图结构信息嵌入到节点属性中,增强Transformer对图结构的理解。

      TransGNN模块:交替使用Transformer层和GNN层,Transformer层扩展GNN的感知范围,GNN层帮助Transformer捕捉图结构信息。

      样本更新策略:提出了基于消息传递和随机游走的两种高效样本更新策略,减少计算复杂度。

      图片

        创新点

        位置编码模块:通过引入多种位置编码,TransGNN能够更好地捕捉图结构信息,从而提高推荐的准确性和鲁棒性。

        TransGNN模块:结合Transformer和GNN的优势,显著提升了推荐系统的性能。在五个公共数据集上的实验表明,TransGNN在Recall@20和NDCG@20指标上分别比最佳基线方法平均提升了21.04%和32.25%。

        样本更新策略:提出的样本更新策略在保持性能的同时,进一步降低了计算复杂度,使得模型能够高效地处理大规模图数据。

        图片

        论文2:

        [IROS] Dual-Branch Graph Transformer Network for 3D Human Mesh Reconstruction from Video

        双分支图Transformer网络用于视频中3D人体网格重建

        方法

        双分支网络:包含全局运动注意力(GMA)分支和局部细节细化(LDR)分支,分别用于提取长期依赖和局部重要信息。

        全局运动注意力(GMA):利用Transformer编码器捕捉视频帧之间的全局时间信息,生成平滑的人体运动。

        局部细节细化(LDR):结合调制图卷积网络和Transformer框架,聚合局部信息并提取关键特征。

        SMPL参数回归器:将融合后的全局运动特征和局部细节特征输入到预训练的SMPL参数回归器中,生成人体网格。

        图片

          创新点

            双分支网络:通过并行处理全局运动和局部细节,显著提高了3D人体网格重建的准确性和运动平滑性。在3DPW、MPI-INF-3DHP和Human3.6M数据集上,MPJPE分别降低了2.3mm、2.2mm和2.2mm。

            全局运动注意力(GMA):有效捕捉长期人体运动,解决了传统RNN方法中运动抖动和不准确的问题。

            局部细节细化(LDR):通过聚合局部信息和提取关键特征,显著提高了人体细节的重建质量。

            计算效率:DGTR在保持高性能的同时,参数数量和FLOPs均少于现有方法,分别减少了约13.61%和11.54%,提高了模型的实用性和效率。

            图片

            论文3:

            [NIPS] Geometric Transformer with Interatomic Positional Encoding

            具有原子间位置编码的几何Transformer

            方法

              原子间位置编码(IPE):基于原子簇扩展(ACE)理论,设计了一种新的位置编码方法,能够捕捉分子结构中的多体相互作用。

              Geoformer架构:将IPE集成到Transformer架构中,通过扩展的自注意力机制和更新机制,有效建模分子几何结构。

              嵌入层:将原子类型和原子坐标映射到特征空间,并初始化IPE。

              解码器:通过轻量级解码器预测分子属性,如能量和HOMO-LUMO间隙。

              图片

              创新点

              原子间位置编码(IPE):通过引入多体相互作用信息,显著提高了Transformer对分子几何结构的建模能力。在QM9数据集上,Geoformer在12种分子属性中的8种上取得了最佳性能。

              Geoformer架构:通过结合IPE和Transformer架构,Geoformer在分子属性预测任务上超越了现有的Transformer和等变GNN模型。在Molecule3D数据集上,Geoformer在随机和骨架分割测试集上的平均绝对误差分别降低了32.56%和3.98%。

              计算效率:尽管Geoformer在性能上取得了显著提升,但其计算复杂度并未显著增加,保持了Transformer架构的高效性。

              位置编码的可视化:通过可视化IPE,展示了其与仅基于成对距离的位置编码相比,能够捕捉到更丰富的几何信息,从而为分子建模提供了更全面的表示。

              图片

              评论
              添加红包

              请填写红包祝福语或标题

              红包个数最小为10个

              红包金额最低5元

              当前余额3.43前往充值 >
              需支付:10.00
              成就一亿技术人!
              领取后你会自动成为博主和红包主的粉丝 规则
              hope_wisdom
              发出的红包
              实付
              使用余额支付
              点击重新获取
              扫码支付
              钱包余额 0

              抵扣说明:

              1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
              2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

              余额充值