OR Paper Weekly (2)| 深度强化学习在库存管理、自动驾驶等领域的应用；MS主编看管理科学发展历史与展望_can deep reinforcement learning improve inventory -CSDN博客

本文链接：https://blog.csdn.net/m0_37591666/article/details/125386926

作者：徐思坤，姜凯雯

精选论文（一）

论文题目: Can Deep Reinforcement Learning Improve Inventory Management? Performance on Lost Sales, Dual-Sourcing, and Multi-Echelon Problems

期刊: Manufacturing & Service Operations Management

发表年份: 2021

作者: Joren Gijsbrechts, Robert Boute, Jan Van Mieghem, Dennis Zhang

原文链接:

https://doi.org/10.1287/msom.2021.1064

摘要：

问题定义: 深度强化学习（DRL）是否能高效地求解库存问题？学术/应用相关性：DRL在游戏和机器人中已经有着成功的应用，供应链的学者和企业们也对它在库存管理中的潜力充满了兴趣。我们对DRL在三个经典且intractable的库存管理问题中的表现做了严格地衡量：销售损失（lost sales），双源采购（dual sourcing），多层级库存管理（multi-echelon）。方法论：我们将每个库存问题建模成马尔可夫决策过程，并在不同的参数设定下应用了异步优势Actor-Critic（A3C）算法。结果：我们发现A3C算法表现非常接近文献中的SOTA（state-of-the-art）启发式算法以及其他的近似动态规划算法。虽然一开始的调参对于计算资源和时间要求非常高，但是对于其他研究的问题所需调整的参数需要的改变非常少。管理洞见：我们的研究佐证了DRL可以高效地求解稳态库存问题。这在没有为问题具体设计的启发式算法的时候非常地有价值。但是，生成带结构的策略洞见或者设计特殊的接近最优（且能证明）的策略仍然需要探索。

文章亮点/点评：从这篇文章我们能很清楚地看到商学院和工学院做ML/DL/RL类研究的区别，前者侧重管理洞见（business insight），但方法论相对落后，后者则更加注重方法论上的创新。虽说风格不同无所谓优劣，但像本文一样仅将一个A3C应用在几个经典问题上，日后再想发UTD几乎不可能，本文之所以能发编者觉得第一个吃螃蟹的成分比较大，毕竟创新型和难度上本文与一个课程项目无异。另外这也告诉我们，要想发MS/MSOM/POM等商学院顶刊，有时候讲好一个故事比方法论本身更重要。