作者:徐思坤,姜凯雯
精选论文(一)
论文题目: Can Deep Reinforcement Learning Improve Inventory Management? Performance on Lost Sales, Dual-Sourcing, and Multi-Echelon Problems
期刊: Manufacturing & Service Operations Management
发表年份: 2021
作者: Joren Gijsbrechts, Robert Boute, Jan Van Mieghem, Dennis Zhang
原文链接:
https://doi.org/10.1287/msom.2021.1064
摘要:
问题定义: 深度强化学习(DRL)是否能高效地求解库存问题?学术/应用相关性:DRL在游戏和机器人中已经有着成功的应用,供应链的学者和企业们也对它在库存管理中的潜力充满了兴趣。我们对DRL在三个经典且intractable的库存管理问题中的表现做了严格地衡量:销售损失(lost sales),双源采购(dual sourcing),多层级库存管理(multi-echelon)。方法论:我们将每个库存问题建模成马尔可夫决策过程,并在不同的参数设定下应用了异步优势Actor-Critic(A3C)算法。结果:我们发现A3C算法表现非常接近文献中的SOTA(state-of-the-art)启发式算法以及其他的近似动态规划算法。虽然一开始的调参对于计算资源和时间要求非常高,但是对于其他研究的问题所需调整的参数需要的改变非常少。管理洞见:我们的研究佐证了DRL可以高效地求解稳态库存问题。这在没有为问题具体设计的启发式算法的时候非常地有价值。但是,生成带结构的策略洞见或者设计特殊的接近最优(且能证明)的策略仍然需要探索。
文章亮点/点评:从这篇文章我们能很清楚地看到商学院和工学院做ML/DL/RL类研究的区别,前者侧重管理洞见(business insight),但方法论相对落后,后者则更加注重方法论上的创新。虽说风格不同无所谓优劣,但像本文一样仅将一个A3C应用在几个经典问题上,日后再想发UTD几乎不可能,本文之所以能发编者觉得第一个吃螃蟹的成分比较大,毕竟创新型和难度上本文与一个课程项目无异。另外这也告诉我们,要想发MS/MSOM/POM等商学院顶刊,有时候讲好一个故事比方法论本身更重要。
精选论文(二)
论文题目: Survey of De