该论文的Abstract:
该论文以组合优化问题中的旅行商问题为例,采用了指针网络(Pointer Networks)和图神经网络(Graph Neural Networks)相结合的图指针网络(Graph Pointer Networks),并且采用了分层强化学习(Hierarchical Reinforcement Learning)将约束组合问题分成不同的子任务。
该论文的Contributions:
①提出了GPN来解决TSP问题,使用图嵌入层扩展指针网络并实现更快的收敛。
②在GPN中加入了context向量并使用早停进行训练,来处理更大规模的TSP实例。
③采用分层 RL 框架和 GPN 架构来有效地解决具有时间窗口约束的 TSP。
TSP问题
该论文专注于解决2维对称欧几里得TSP问题。对称的TSP问题可以看成一个完全无向图。给定一个 个城市坐标的列表
,找到一条最优路线,使每个城市只访问一次并且路线中覆盖的总距离最小。换句话说,在城市上找到一个最优排列
,使行程长度最小。
其中,对任意的 来说,
,并且