最新综述:用于组合优化的强化学习

©PaperWeekly 原创 · 作者 | 王馨月

学校 | 四川大学本科生

研究方向 | 自然语言处理

摘要

推许多解决组合优化问题的传统算法都涉及使用手工构造的启发式算法,这些启发式算法能够依次地构造解决方案。这种启发式方法是由领域专家设计的,且一般由于问题的困难性,这种方法不是最佳的。强化学习(RL)提出了一种很好的选择,使用监督或自我监督的方式训练 agent 来自动搜索这些启发式方法。

在这篇调研中,我们探索了将 RL 框架应用于困难的组合问题的最新进展。我们的调研为运筹学和机器学习社区提供了必要的背景,并展示了推动领域向前发展的工作。我们将最近提出的 RL 方法并置在一起,列出了每个问题改进方法的时间线,并与传统算法进行了比较,这表明 RL 模型可以成为解决组合问题的有希望的方向。

论文标题:

Reinforcement Learning for Combinatorial Optimization: A Survey

论文作者:

Nina Mazyavkina, Sergey Sviridov, Sergei Ivanov, Evgeny Burnaev

论文链接:

https://arxiv.org/abs/2003.03600

 

引言

优化问题涉及在不同可能中找到优化配置或是“值”,他们天然地属于两个类别中的一个:具有连续变量和离散变量的配置。比如,找到一个凸规划问题的解决方案是一个连续优化问题,而在图的所有路径中找到最短路径则是一个离散优化问题。

有时两者之间的界线很难确定。比如,在连续空间中的线性规划任务可以看作是一个离散的组合问题,因为他的解决方案在凸多边形的顶点的有限集合中,这已经由 Dantzig 的算法证明。通常,离散空间中的优化问题称为组合优化(CO)问题,且与连续空间中的问题相比拥有不同类型的解决方案。可以将 CO 问题表达如下:

定义1: 是一个元素的集合, 是代价函数。组合优化问题旨在找到函数 的最优值以及在域 上实现该最优值的任何对应的最优元素。

通常,集合 是是有限的,在这种情况下,存在全局最优值。因此,对于任何CO问题,都可以通过比较所有 中的元素 来得到平凡解。注意,定义 1 还包括决策问题的情况,当解决方案是二元(或更普遍的多类)的解决方案时,错误答案的成本比正确答案的成本高。

组合问题的一个常见示例是旅行商问题(TSP)。目标是提供访问每个顶点并返回到初始端点的最短路径,或者换句话说,在全连接的加权图中找到具有最小长度的汉密尔顿回路 。在这种情况下,所有汉密尔顿回路都定义了一组元素,即 所有汉密尔顿路径 ,以及与每个汉密尔顿贿赂相关的成本是回路中边 的权重 的总和 ,即

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值