一、概述
1.端到端的方法
优点:(1)无需搜索直接输出问题解,求解速度快。
(2) 模型具有很强的泛化能力。模型一旦训练完成,可以对具有相同分布特性的所有问题实例进行求解。
缺点:(1)解的质量很难保证。
(2)在大规模问题上表现一般。
2.利用深度强化学习改进传统的方法
优点:有较好的优化效果。
缺点:本质上仍然是迭代型搜索算法, 求解速度仍然远不及端到端方法。
二、最新研究总结
1. DRL to select node pair:利用深度强化学习去选择类似与遗传算法的交叉变异位置
文章:
[1] Ma Y , Li J , Cao Z , et al. Learning to Iteratively Solve Routing Problems with Dual-Aspect Collaborative Transformer[C]// 2021.
链接:https://arxiv.org/abs/2110.02544
[2] Wu Y , Song W , Cao Z , et al. Learning Improvement Heuristics for Solving Routing Problems[J]. 2019.
链接:https://arxiv.org/abs/1912.05784?context=cs.LG
2. 直接输出多个解---->神经网络优化解(目标:最大化解之间的差异性)---->DRL修正每个解
文章:[1] Kim M , Park J , Kim J . Learning Collaborative Policies to Solve NP-hard Routing Problems[C]// 2021.
链接:https://arxiv.org/abs/2110.13987v1
3. 神经网络+传统启发式方法
利用图神经网络得到初始图结构---->利用传统启发式方法对图结构进行优化......
文章:A Bi-Level Framework for Learning to Solve Combinatorial Optimization on Graphs
链接:https://arxiv.org/pdf/2106.04927.pdf
4. 利用强化学习对分支定界的branch规则进行学习,采用ES进化策略对神经网络模型参数进行训练。
文章:Improving Learning to Branch via Reinforcement Learning
链接: https://openreview.net/forum?id=M_KwRsbhi5e5
5. 大规模问题
(1)对大图进行分割,再对小图进行处理,在合并为大图。
论文复盘:Generalize a Small Pre-trained Model to Arbitrarily Large TSP Instances-AAAI2021大规模tsp监督学习方法 - 知乎(2)大规模VRP问题(利用强化学习选区域)
文章:Learning to Delegate for Large-scale Vehicle Routing
链接:https://arxiv.org/abs/2107.04139
(3)知识蒸馏
文章: An Efficient Combinatorial Optimization Model Using Learning-to-Rank Distillation