强化学习+组合优化创新!快速学会登上CCF-A的热门组合

强化学习特别擅长处理高维、非线性及具有复杂约束条件的问题,和组合优化可以说是“天生一对”。其自适应性和策略改进能力,可以让它在未知或动态变化的环境中逐步学习到最优策略,在COP求解上远远优于传统方法。

实际上,这种组合一直是个前沿且相当热门的研究领域,最近在顶会Neurips上已经看见了不少新的突破性成果,比如一种群体强化学习方法Poppy,在四个NP难题上都实现了SOTA,另外还有一种基于GNN的强化学习方法,在解决组合优化问题上参数量减少了83%,同时保持高性能。

所以对于组合优化领域的论文er来说,+强化学习真的是一大创新趋势,尤其是深度强化学习(目前想要在组合优化问题领域发论文真得上DRL),建议感兴趣的同学抓紧。我这边有已经整理好的12篇强化学习+组合优化新论文&代码,需要参考的可以无偿领~

全部论文+开源代码需要的同学看文末

Graph Q-Learning for Combinatorial Optimization

方法:论文是关于使用GNNs和强化学习(RL)来解决组合优化问题的,作者提出了一种方法,将组合优化问题表示为图序列,并使用强化学习来寻找有前景的解决方案。实验证明,使用图神经网络通过Q-Learning训练的模型在解决组合优化问题上的性能接近最先进的启发式求解器,同时仅使用了六分之一的参数量和更少的训练时间。

创新点;

  • 首次将GNNs应用于解决灵活作业车间调度问题(FJSP),并将组合优化问题表示为马尔可夫决策过程(MDP)。

  • 在保持与其他算法和基线启发式方法相当性能的同时,仅使用了它们一小部分的参数和训练时间。

  • 通过将问题空间以图形表示,所提出的方法不仅限于固定问题规模,能够跨多种规模问题实现通用的元学习。

Reinforcement Learning-Based Formulations With Hamiltonian-Inspired Loss Functions for Combinatorial Optimization Over Graphs

方法:作者将QUBO-Hamiltonian集成到基于强化学习的无监督框架中,解决图论组合优化问题,提出了改进PI-GNN的策略以及两种新的RL架构(GRL QUBO和MCTS-GNN),并在Max-Cut问题上实现了高达44%的约束满足率提升,以展示其在广泛适用性、解决方案质量和收敛模式上的贡献。

创新点:

  • 提出了将QUBO-海森堡模型集成到强化学习框架中的策略。

  • 设计了一种将蒙特卡罗树搜索与单一GNN结合的策略,通过手动扰动节点标签来进行引导搜索。

  • 提出了模糊提前停止策略,以改善PI-GNN在更高密度图中的性能。

Transform then Explore: a Simple and Effective Technique for Exploratory Combinatorial Optimization with Reinforcement Learning

方法:论文提出了一种名为“Gauge Transformation”(GT)的新方法,旨在改善传统强化学习模型在解决组合优化问题时的探索能力。通过GT技术,强化学习代理能够在测试阶段不断改进解决方案,从而提高在组合优化问题上的表现。

创新点:

  • GT技术是一种简单但有效的方法,通过在测试阶段让训练好的RL代理逆转其早期决策,从而提高解的质量。

  • GT技术显著提高了RL模型在组合优化问题中的探索能力。

  • GT技术独立于任何特定的RL模型,可以无缝集成到各种RL框架中。

Winner takes it all: Training performant RL populations for combinatorial optimization

方法:本文提出了一种名为Poppy的群体强化学习方法,旨在通过优化群体整体表现而非单个代理的表现来解决组合优化问题,利用无监督的代理专门化实现多策略的互补性,从而在旅行商问题、容量约束车辆路径问题、0-1背包问题和车间调度问题等四个NP难题上取得了当前最优的强化学习结果。

创新点:

  • Poppy通过引入一种RL目标,旨在专门化代理,使其在问题分布的不同子集上表现更佳。

  • Poppy采用了一种基于种群的RL方法,通过并行推出多个代理以提高解决方案空间的探索效率。

  • Poppy设计了一种高效的训练程序,首先对单个代理进行预训练,然后克隆该代理形成种群。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“强化组合”获取全部方案+开源代码

码字不易,欢迎大家点赞评论收藏

03-15
### CCF A类会议或期刊概述 中国计算机学会CCF)推荐的A类会议和期刊代表了各研究领域的最高水平,涵盖了广泛的学科方向。以下是基于不同领域分类的部分A类会议和期刊列表: #### 计算机网络领域 在计算机网络领域,以下是一些被列为A类的重要会议和期刊[^1]: - **SIGCOMM**: ACM Special Interest Group on Data Communication (ACM SIGCOMM),专注于数据通信技术及其应用。 - **MOBICOM**: International Conference on Mobile Computing and Networking,关注移动计算与网络的技术进展。 - **JSAC**: IEEE Journal on Selected Areas in Communications,发表关于通信系统的高质量研究成果。 #### 数据挖掘与知识发现领域 对于数据挖掘与知识发现领域,有如下重要的A类会议之一[^3]: - **KDD**: ACM SIGKDD Conference on Knowledge Discovery and Data Mining,作为数据挖掘领域的顶级国际学术会议,其影响力巨大。 #### 计算机体系结构/并行与分布计算/存储系统领域 在此领域中,部分A类会议包括[^2]: - **ASPLOS**: Architectural Support for Programming Languages and Operating Systems,涉及编程语言、操作系统以及架构支持方面的创新工作。 - **ISCA**: International Symposium on Computer Architecture,聚焦于计算机体系结构的设计与发展。 - **MICRO**: IEEE/ACM International Symposium on Microarchitecture,深入探讨微架构设计和技术实现。 - **USENIX ATC**: USENIX Annual Technical Conference,涵盖广泛的操作系统及其实现中的关键技术问题。 以上仅列举了一部分具有代表性的A类会议和期刊名称;具体完整的列表可以参考最新的《中国计算机学会推荐国际学术会议和期刊目录》版本。 ```python # 示例代码展示如何通过Python访问URL获取最新版CCF推荐列表(假设存在API接口) import requests def fetch_ccf_list(year="2022"): url = f"https://example.com/ccf-recommendations/{year}" response = requests.get(url) if response.status_code == 200: return response.json() else: raise Exception(f"Failed to retrieve data with status code {response.status_code}") try: ccf_data = fetch_ccf_list() print(ccf_data['network_conferences']) except Exception as e: print(e) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值