论文阅读——Combinatorial Optimization by Graph Pointer Networks and Hierarchical Reinforcement Learning

该论文的Abstract:

        该论文以组合优化问题中的旅行商问题为例,采用了指针网络(Pointer Networks)和图神经网络(Graph Neural Networks)相结合的图指针网络(Graph Pointer Networks),并且采用了分层强化学习(Hierarchical Reinforcement Learning)将约束组合问题分成不同的子任务。

该论文的Contributions:

        ①提出了GPN来解决TSP问题,使用图嵌入层扩展指针网络并实现更快的收敛。

        ②在GPN中加入了context向量并使用早停进行训练,来处理更大规模的TSP实例。

        ③采用分层 RL 框架和 GPN 架构来有效地解决具有时间窗口约束的 TSP。

TSP问题

        该论文专注于解决2维对称欧几里得TSP问题。对称的TSP问题可以看成一个完全无向图。给定一个 N 个城市坐标的列表 \left \{\mathbf{x}_1, \mathbf{x}_2,...,\mathbf{x}_N \right \}\subset \mathbb{R}^2 ,找到一条最优路线,使每个城市只访问一次并且路线中覆盖的总距离最小。换句话说,在城市上找到一个最优排列 \sigma ,使行程长度最小。

L(\sigma, \mathbf{X})=\sum_{i=1}^{N}\left\|\mathbf{x}_{\sigma(i)}-\mathbf{x}_{\sigma(i+1)}\right\|_{2}

        其中,对任意的 i\neq j 来说, \sigma(1)=\sigma(N+1),\sigma(i)\in\left \{ 1, ..., N \right \},\sigma(i) \neq \sigma(j) ,并且  

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值