《基于深度强化学习的组合优化研究进展》阅读总结

一、概述

 1.端到端的方法

优点:(1)无需搜索直接输出问题解,求解速度快。

          (2) 模型具有很强的泛化能力。模型一旦训练完成,可以对具有相同分布特性的所有问题实例进行求解。

缺点:(1)解的质量很难保证。

           (2)在大规模问题上表现一般。

2.利用深度强化学习改进传统的方法

优点:有较好的优化效果。

缺点:本质上仍然是迭代型搜索算法, 求解速度仍然远不及端到端方法。

二、最新研究总结

1. DRL to select node pair:利用深度强化学习去选择类似与遗传算法的交叉变异位置

文章:

[1] Ma Y ,  Li J ,  Cao Z , et al. Learning to Iteratively Solve Routing Problems with Dual-Aspect Collaborative Transformer[C]// 2021.

链接:https://arxiv.org/abs/2110.02544

[2] Wu Y ,  Song W ,  Cao Z , et al. Learning Improvement Heuristics for Solving Routing Problems[J].  2019.

链接:https://arxiv.org/abs/1912.05784?context=cs.LG

2. 直接输出多个解---->神经网络优化解(目标:最大化解之间的差异性)---->DRL修正每个解

文章:[1] Kim M ,  Park J ,  Kim J . Learning Collaborative Policies to Solve NP-hard Routing Problems[C]// 2021.

链接:https://arxiv.org/abs/2110.13987v1

 

3. 神经网络+传统启发式方法

 利用图神经网络得到初始图结构---->利用传统启发式方法对图结构进行优化......

文章:A Bi-Level Framework for Learning to Solve Combinatorial Optimization on Graphs 

链接:https://arxiv.org/pdf/2106.04927.pdf

4. 利用强化学习对分支定界的branch规则进行学习,采用ES进化策略对神经网络模型参数进行训练。

文章:Improving Learning to Branch via Reinforcement Learning 

链接: https://openreview.net/forum?id=M_KwRsbhi5e5

5. 大规模问题

(1)对大图进行分割,再对小图进行处理,在合并为大图。

论文复盘:Generalize a Small Pre-trained Model to Arbitrarily Large TSP Instances-AAAI2021大规模tsp监督学习方法 - 知乎(2)大规模VRP问题(利用强化学习选区域)

文章:Learning to Delegate for Large-scale Vehicle Routing

链接:https://arxiv.org/abs/2107.04139​​​​​​

(3)知识蒸馏

文章: An Efficient Combinatorial Optimization Model Using Learning-to-Rank Distillation 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值