论文笔记:A Learning-based Iterative Method For Solving Vehicle Routing Problems(ICLR 2020)

本文来自普林斯顿大学的研究结果,是一篇基于强化学习方法解决组合优化问题的文章。以往解决优化模型,常见的方法有以下几类:

  1. 确定性优化算法:如基于梯度的方法——最速下降法、牛顿法、拟牛顿法…;线性规划、混合整数规划;
  2. 随机性优化算法:模拟退火、遗传算法
  3. 启发性算法:贪婪算法

作者将优化算法分为Operation Methods (运筹学方法)和 Learning-based Methods(基于学习的方法:DL/RL). PS: 其实我也不知道随机性和启发性算法属不属于运筹学的范围。在过去的文章中,基于学习的算法一般速度很快,但是优化质量不好;基于运筹学的传统方法精度较高,但是速度慢。作者本次提出的L2I(Learn to improve)框架,在精确度和效率上都达到了几近最佳的效果。

约束车辆路径问题

约束车辆路径问题(Capacitated vehicle routing problem, CVRP)建模如下:
在这里插入图片描述
在这里插入图片描述
概括一下就是车辆要在中心仓库调货并输送到各个顾客。如何在不违反最大载货量的同时,找到一个成本最低的配送方案。该问题也广泛应用于物流配送中。
这里很重要一个概念是operator,翻译叫算子。它与强化学习理论中的action是同一个概念。即在当前解的情况下,执行operator,让路径变成另外一个解(类比在下棋中如何落子).

Framework

在这里插入图片描述
Framework包含两部分。左半部分是RL的改进框架,右半部分是扰动框架。首先定义CVRP问题,初始化一个可行解为当前解,并开始迭代。元控制器首先会将当前解forward K steps,看看它有没有更新的价值。如果元控制器在当前解下更新迭代K轮,目标函数仍然无法下降,那就进入右半部分扰动模块中。扰动框架会使用扰动算子将当前解偏移到另一个值,并重新开始解算。如果元控制器认为当前解有改进的价值,那就进入强化学习改进的模块。

强化学习的参数

在这里插入图片描述

在这里插入图片描述
以上是state和operators的定义.
在Reward Function 部分,作者设计了两种:一种是固定值,一轮迭代中目标值有所下降为+1,否则为-1;另一种是基于优势函数的RF.

策略网络

在这里插入图片描述

一般用Graph(图模型)表示Current solution. 并将问题属性信息与图数据嵌入到同一个隐空间中,通过一个Attention network(采用了transformer的encoder-decoder结构). 注意力网络输出后与历史的动作和效果Concat到两层的感知机,最终映射成动作概率.

结果

在这里插入图片描述
baseline有Google的运筹学解算工具,2017 LKH3启发式算法;其余的都是近几年效果较好的强化学习+attention算法. L2I在该表格中优势还是明显的。

总结

Attention+RL的创意,在近几年已经有很多文章在做了。我个人觉得本文在网络结构上的创新没有什么亮点,与其它文章不同的是它的Framework和Ensemble policy. 效果好才是真的好.

  • 2
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值