OR Paper Weekly (2)| 深度强化学习在库存管理、自动驾驶等领域的应用;MS主编看管理科学发展历史与展望

作者:徐思坤,姜凯雯

精选论文(一)

论文题目:  Can Deep Reinforcement Learning Improve Inventory Management? Performance on Lost Sales, Dual-Sourcing, and Multi-Echelon Problems

期刊: Manufacturing & Service Operations Management

发表年份: 2021

作者: Joren Gijsbrechts, Robert Boute, Jan Van Mieghem, Dennis Zhang

原文链接:

https://doi.org/10.1287/msom.2021.1064

摘要:

问题定义: 深度强化学习(DRL)是否能高效地求解库存问题?学术/应用相关性:DRL在游戏和机器人中已经有着成功的应用,供应链的学者和企业们也对它在库存管理中的潜力充满了兴趣。我们对DRL在三个经典且intractable的库存管理问题中的表现做了严格地衡量:销售损失(lost sales),双源采购(dual sourcing),多层级库存管理(multi-echelon)。方法论:我们将每个库存问题建模成马尔可夫决策过程,并在不同的参数设定下应用了异步优势Actor-Critic(A3C)算法。结果:我们发现A3C算法表现非常接近文献中的SOTA(state-of-the-art)启发式算法以及其他的近似动态规划算法。虽然一开始的调参对于计算资源和时间要求非常高,但是对于其他研究的问题所需调整的参数需要的改变非常少。管理洞见:我们的研究佐证了DRL可以高效地求解稳态库存问题。这在没有为问题具体设计的启发式算法的时候非常地有价值。但是,生成带结构的策略洞见或者设计特殊的接近最优(且能证明)的策略仍然需要探索。

文章亮点/点评:从这篇文章我们能很清楚地看到商学院和工学院做ML/DL/RL类研究的区别,前者侧重管理洞见(business insight),但方法论相对落后,后者则更加注重方法论上的创新。虽说风格不同无所谓优劣,但像本文一样仅将一个A3C应用在几个经典问题上,日后再想发UTD几乎不可能,本文之所以能发编者觉得第一个吃螃蟹的成分比较大,毕竟创新型和难度上本文与一个课程项目无异。另外这也告诉我们,要想发MS/MSOM/POM等商学院顶刊,有时候讲好一个故事比方法论本身更重要。

精选论文(二)

论文题目: Survey of De

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值