Ai顶会新神器!GNN+强化学习,超高性能,超低成本!

今天给大家推荐一个涨点发顶会的好方向:GNN+强化学习。这俩热点的结合可以轻松实现“1+1>2”的效果。

GNN能够深入挖掘图中的模式和关系,而RL(强化学习)擅长在动态环境中进行序列决策,尤其是在需要长期规划和适应环境变化的情况下。两者结合起来,可以开发出能够同时学习图结构表示和做出最优决策的智能模型。

  • MAG-GNN:提出了一种基于强化学习的图神经网络方法,称为MAG-GNN,通过使用强化学习(RL)来定位具有区分性的子图集合,从而降低了子图GNN的计算复杂度,同时保持了良好的表达能力。实验结果表明,MAG-GNN在多个数据集上取得了与最先进方法相竞争的性能,并且比许多子图GNNs取得了更好的效果。

  • SAC-CAI-EGCN:提出了一种结合了强化学习、因果推断和图神经网络的SDN(Software-Defined Networking)路由方案。在GEANT2网络拓扑的实验中,SAC-CAI-EGCN方法在数据包丢失率上优于SPR约66.4%,在延迟上减少了约65.0%,并在吞吐量上提高了约23.8%。这些数据表明SAC-CAI-EGCN在网络性能上实现了显著的改进。

  • AttackGNN:提出了一种新颖的强化学习(RL)代理程序AttackGNN,用于生成对抗性示例(即电路),以欺骗GNN技术。该方法可以针对四种关键的硬件安全问题(IP盗版、检测/定位硬件木马、逆向工程和硬件混淆技术破解)生成成功的对抗性示例。

  • 疫苗优先分配策略:探讨了一种结合图神经网络(GNN)和深度强化学习(DRL)的疫苗优先分配策略,旨在有限的疫苗供应下减少疫情的整体负担。在模拟评估中,该框架实现了比基线策略减少7%到10%的感染和死亡,展示了其在优化疫苗分配策略方面的显著效果。

这种策略也存在挑战,如需大量数据、计算资源等。目前的研究也着力于改善这一结合的有效性和效率,这些进展展示了GNN和RL结合的强大潜力。我整理出 多篇最新论文,并附上开源代码方便大家复现找灵感。!

欢迎来到AI科研Paper,这里集 AI 知识、技术、资源于一体,为 AI 爱好者、从业者、研究者提供全方位的服务与支持。我们致力于成为 AI 爱好者与从业者的学术服务助力。


论文精选

论文1:A Framework for Real-World Multi-Robot Systems Running Decentralized GNN-Based Policies

用于现实世界多机器人系统运行去中心化的基于GNN策略的框架

方法
  • 分布式执行:提出了一个基于ROS2的系统框架,允许完全去中心化的GNN策略执行。

  • 案例研究:通过一个需要机器人之间紧密协调的案例研究来演示框架,展示了在去中心化多机器人系统上成功部署基于GNN的策略。

  • 网络配置:介绍了不同的评估模式和网络配置,包括集中式、离板式、基于基础设施的船上式和基于Adhoc网络的船上式。

图片

创新点
  • 去中心化执行:首次在现实世界中部署基于GNN的策略到完全去中心化的多机器人系统,使用ROS2和Adhoc通信网络,成功率高达90.1%,比集中式模式低5.7个百分点。

  • 框架设计:提出了一个基于ROS2的软件和网络框架,支持在模拟和现实世界中运行GNN和其他消息传递算法,允许以集中式或去中心化方式执行GNN策略。

  • 性能比较:通过实验比较了集中式执行和三种去中心化策略执行之间的性能变化,包括离板式、基于基础设施的船上式和基于Adhoc网络的船上式,显示出在不同网络配置下的性能差异。

图片



论文2:Graph Neural Network Reinforcement Learning for Autonomous Mobility-on-Demand Systems

用于自动驾驶按需出行系统的图神经网络强化学习

方法
  • 深度强化学习框架:提出了一个控制自动驾驶按需出行系统(AMoD)的深度强化学习框架,通过图神经网络实现系统重新平衡。

  • 图结构利用:利用图结构来表示城市交通网络,通过图卷积网络(GCN)进行信息传播和决策。

  • 节点级决策:将AMoD控制问题转化为节点级决策问题,每个节点代表城市的一个区域。

图片

创新点
  • 策略可转移性:展示了通过图神经网络学习的行为策略在不同城市间具有显著的零样本转移能力,如城市间泛化、服务区域扩展和适应复杂城市拓扑结构。

  • 性能提升:在成都和纽约的真实出行数据上评估,与基于控制的方法和学习型方法相比,提出的框架在性能上接近最优,成都服务区域扩展实验中,与完全重新训练的模型相比,仅下降2.5%。

  • 计算效率:与基于模型预测控制(MPC)的传统控制策略相比,基于图神经网络的强化学习方法在计算上更为高效,尤其是在大型网络中。

图片

论文3:Reinforcement Learning-enhanced Shared-account Cross-domain Sequential Recommendation

增强型共享账户跨域序列推荐

方法
  • 强化学习解决方案:提出了一种基于强化学习的解决方案RL-ISN,包含基础跨域推荐器和基于强化学习的领域过滤器。

  • 用户识别网络:通过聚类用户混合行为作为潜在用户,并利用注意力模型进行用户识别。

  • 层次化强化学习任务:将领域过滤器设计为层次化强化学习任务,高层任务决定是否修改整个转移序列,低层任务决定是否移除序列中的每个交互。

图片

创新点
  • 用户特定账户表示:通过关注最近行为来学习更准确的用户特定账户表示,提高了推荐准确性。

  • 跨域推荐性能提升:通过强化学习增强的领域过滤器,减少了不相关领域信息的影响,提升了跨域推荐性能,在HVIDEO数据集上比基线方法提升了56.71%。

  • 层次化强化学习策略:通过层次化强化学习策略,更有效地过滤不相关交互,提高了跨域推荐系统的性能。

图片



论文4:Teal: Learning-Accelerated Optimization of WAN Traffic Engineering

Teal:广域网流量工程的基于学习的加速优化

方法
  • 流中心图神经网络(FlowGNN):设计了一种流中心的图神经网络来捕获广域网(WAN)的连通性和网络流量,学习流量特征作为下游分配的输入。

  • 多智能体强化学习(RL)算法:采用多智能体强化学习算法独立分配每个流量需求,同时优化中心流量工程(TE)目标。

  • 交替方向乘子法(ADMM):使用ADMM这一高度可并行化的优化算法进行微调,以减少约束违规,例如过载的链路。

图片

创新点
  • 流中心图神经网络(FlowGNN):通过显式表示与流量相关的实体—边缘和路径—作为TE特定GNN的节点,Teal能够捕捉WAN的连通性并在嵌入空间中编码图结构输入,相比传统的全连接神经网络更有效地处理WAN拓扑结构。

  • 多智能体强化学习(RL)算法:Teal通过独立处理每个需求,使用共享策略网络,显著减少了问题的规模和学习过程中的参数数量,使得策略网络更加紧凑,并且在WAN拓扑大小上具有鲁棒性。在大型拓扑中,Teal实现了6-32%的流量需求满足度提升,并达到了197-625倍的速度提升。

  • 交替方向乘子法(ADMM):Teal利用ADMM算法进行快速迭代微调,有效减少了链路过载等约束违规问题,提高了解决方案的整体质量,同时保持了计算过程的高度并行性,使得在大型WAN拓扑上的应用成为可能。

  • 性能提升:在拥有超过1700个节点的大型WAN拓扑上,Teal生成了接近最优的流量分配,运行速度比生产优化引擎快几个数量级。与现有的TE加速方案相比,Teal在满足更多流量需求的同时,实现了197-625倍的加速。

    图片



需要的同学私信

回复“GNN+强化学习”即可全部领取

### 图神经网络与迁移学习的应用场景 图神经网络(GNNs)通过聚合邻域节点的信息来学习节点嵌入,从而有效地处理图结构数据[^1]。当涉及到迁移学习时,这种特性使得GNN能够在不同领域之间传递知识。 #### 应用场景 1. **跨领域推荐系统** 推荐系统的成功依赖于捕捉用户行为模式的能力。利用GNN可以建模用户-物品交互形成的复杂网络结构。而迁移学习则允许模型将在一个领域的学到的知识迁移到另一个相似但不同的领域中去。例如,在电影评分预测上训练好的GNN可以直接应用于音乐偏好预测任务中,只需微调部分参数即可适应环境下的分布差异。 2. **生物医学研究** 生物分子之间的相互作用构成了复杂的网络形式,如蛋白质-蛋白质互作网(PPI)或者药物靶点关联图谱。借助迁移学习框架下预训练过的大型PPI数据库上的GNN模型,研究人员可以在较小规模的数据集上更快地获得高质量的结果,加速型疾病机制探索过程或是发现潜在治疗方案。 3. **社交网络分析** 社交媒体平台上存在着大量的人际关系链路构成的巨大社会图景。对于那些希望理解社区动态变化趋势的企业而言,他们往往面临着缺乏标注样本的问题。此时如果能先在一个拥有充足标签信息的其他社交平台之上预先训练好相应的GNN架构,则可以通过简单的调整迅速部署至目标环境中开展深入洞察工作。 ### 实现方式 一种常见的做法是在源域(即有较多可用标记实例的地方)上充分训练基础版GNN作为初始化权重;接着针对特定目标任务选取合适的损失函数指导下游finetune阶段的学习进程。具体来说: ```python import torch.nn as nn from dgl import DGLGraph from dgl.nn.pytorch.conv import GraphConv class GCN(nn.Module): def __init__(self, in_feats, h_feats, num_classes): super(GCN, self).__init__() self.conv1 = GraphConv(in_feats, h_feats) self.conv2 = GraphConv(h_feats, num_classes) def forward(self, g: DGLGraph, features): h = self.conv1(g, features) h = F.relu(h) h = self.conv2(g, h) return h # 假定已经加载好了两个图g_source 和 g_target 及其对应的feature矩阵features_source/features_target model = GCN(features_source.shape[1], hidden_size=16, num_classes=num_class).to(device) optimizer = optim.Adam(model.parameters(), lr=learning_rate) for epoch in range(num_epochs): model.train() logits = model(g_source, features_source) loss = criterion(logits[train_mask], labels[train_mask]) optimizer.zero_grad() loss.backward() optimizer.step() # Fine-tuning on target domain with frozen layers or lower learning rate. for param in model.named_parameters(): if 'conv' not in param[0]: param[1].requires_grad_(False) fine_tuner_optimizer = optim.SGD(filter(lambda p:p.requires_grad,model.parameters()),lr=fine_tune_lr,momentum=momentum) for fine_epoch in range(fine_tune_epochs): ... ``` 上述代码片段展示了一个简单版本的两层GCNs如何被用来做迁移学习的例子。这里假设有一个源域`source_domain_data=(g_source,features_source)`和一个目标域`target_domain_data=(g_target,features_target)`。首先在整个源域数据集中进行完整的训练周期以获取较好的泛化性能;然后再切换到只更某些选定层的方式继续优化直至收敛为止。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值