论文笔记：A Learning-based Iterative Method For Solving Vehicle Routing Problems(ICLR 2020)

最新推荐文章于 2023-07-08 09:51:58 发布

_Epsilon_

最新推荐文章于 2023-07-08 09:51:58 发布

阅读量2.5k

点赞数 2

分类专栏：优化问题及算法文章标签：算法人工智能深度学习机器学习

本文链接：https://blog.csdn.net/qq_34003876/article/details/108069958

版权

优化问题及算法专栏收录该内容

5 篇文章 6 订阅

订阅专栏

本文来自普林斯顿大学的研究结果，是一篇基于强化学习方法解决组合优化问题的文章。以往解决优化模型，常见的方法有以下几类：

确定性优化算法：如基于梯度的方法——最速下降法、牛顿法、拟牛顿法…；线性规划、混合整数规划；
随机性优化算法：模拟退火、遗传算法
启发性算法：贪婪算法

作者将优化算法分为Operation Methods （运筹学方法）和 Learning-based Methods（基于学习的方法：DL/RL）. PS: 其实我也不知道随机性和启发性算法属不属于运筹学的范围。在过去的文章中，基于学习的算法一般速度很快，但是优化质量不好；基于运筹学的传统方法精度较高，但是速度慢。作者本次提出的L2I(Learn to improve)框架，在精确度和效率上都达到了几近最佳的效果。

约束车辆路径问题

约束车辆路径问题（Capacitated vehicle routing problem, CVRP）建模如下：
在这里插入图片描述

概括一下就是车辆要在中心仓库调货并输送到各个顾客。如何在不违反最大载货量的同时，找到一个成本最低的配送方案。该问题也广泛应用于物流配送中。
这里很重要一个概念是operator，翻译叫算子。它与强化学习理论中的action是同一个概念。即在当前解的情况下，执行operator，让路径变成另外一个解（类比在下棋中如何落子）.

Framework

在这里插入图片描述
Framework包含两部分。左半部分是RL的改进框架，右半部分是扰动框架。首先定义CVRP问题，初始化一个可行解为当前解，并开始迭代。元控制器首先会将当前解forward K steps，看看它有没有更新的价值。如果元控制器在当前解下更新迭代K轮，目标函数仍然无法下降，那就进入右半部分扰动模块中。扰动框架会使用扰动算子将当前解偏移到另一个值，并重新开始解算。如果元控制器认为当前解有改进的价值，那就进入强化学习改进的模块。

强化学习的参数

在这里插入图片描述

在这里插入图片描述
以上是state和operators的定义.
在Reward Function 部分，作者设计了两种：一种是固定值，一轮迭代中目标值有所下降为+1，否则为-1；另一种是基于优势函数的RF.

策略网络

在这里插入图片描述

一般用Graph（图模型）表示Current solution. 并将问题属性信息与图数据嵌入到同一个隐空间中，通过一个Attention network（采用了transformer的encoder-decoder结构）. 注意力网络输出后与历史的动作和效果Concat到两层的感知机，最终映射成动作概率.

结果

在这里插入图片描述
baseline有Google的运筹学解算工具，2017 LKH3启发式算法；其余的都是近几年效果较好的强化学习+attention算法. L2I在该表格中优势还是明显的。

总结

Attention+RL的创意，在近几年已经有很多文章在做了。我个人觉得本文在网络结构上的创新没有什么亮点，与其它文章不同的是它的Framework和Ensemble policy. 效果好才是真的好.

_Epsilon_

关注

2
点赞
踩
30

收藏

觉得还不错? 一键收藏
6
评论
论文笔记：A Learning-based Iterative Method For Solving Vehicle Routing Problems(ICLR 2020)

本文来自普林斯顿大学的研究结果，是一篇基于强化学习方法解决组合优化问题的文章。以往解决优化模型，常见的方法有以下几类：确定性优化算法：如基于梯度的方法——最速下降法、牛顿法、拟牛顿法…；线性规划、混合整数规划；随机性优化算法：模拟退火、遗传算法启发性算法：贪婪算法作者将优化算法分为Operation Methods （运筹学方法）和 Learning-based Methods（基于学习的方法：DL/RL）. PS: 其实我也不知道随机性和启发性算法属不属于运筹学的范围。在过去的文章中，基于学
复制链接

扫一扫