OR Paper Weekly(1)

作者:徐思坤,姜凯雯,马洁

OR Paper Weekly 栏目将会从运筹学顶级期刊上选择一部分有趣的文章,对这些文章的主要研究内容进行一个概述/点评。OR Paper Weekly 的特点是 不做大而全的照搬,也未必都只选择优质的文章,而是精选一部分有趣的文章。辅之以科普/点评/吐槽的方式,让大家随时了解最新的科研动态。欢迎大家一起来 欣赏优质文章,学习脑洞文章,鄙视灌水文章。本期 OR Paper Weekly 精选了六篇文章,涵盖供应链金融强化学习仿真随机优化等多个热点话题。

精选论文(一)

论文题目:Financing the Newsvendor: Supplier vs. Bank, and the Structure of Optimal Trade Credit Contracts

期刊:Operations Research

发表年份:2012

作者:Panos Kouvelis, Wenhui Zhao

原文链接:

https://doi.org/10.1287/opre.1120.1040

摘要:

我们考虑包含一个零售商和一个供应商的供应链:由报童模型描述的零售商有(且仅有)一个机会从供应商处采购一个产品以满足未来的不确定需求。零售商和供应商都受到预算的限制因而需要短期融资。在存在破产风险的情况下,我们将两者的战略互动建模为一个Stackleberg游戏,其中供应商为领导者。我们采用提前付款优惠(Early payment discount)的范式作为决策框架,从供应商的角度分析双方有关交易信用(Trade credit,提前付款则享受提前付款优惠,延迟付款则需支付利率)的决策。在简单的假设下,我们发现一个风险中性的供应商会提供比无风险利率更低的贷款利率为零售商融资。零售商在供应商提供上述利率的情况下,相比于从银行融资会更倾向于向供应商融资。并且,在这个最优的交易信用合同下,供应商的利润和整个供应链的效率都得以提升,而零售商的利润则有可能会比它以银行融资的方式获得的利润更高,具体程度取决于它现有的流动资金和抵押品。

文章亮点/点评:本文是供应链金融的一篇经典文章,它探讨了在供应链内部如何通过上下游企业以交易信用(Trade credit)的方式进行短期融资,从而提升各个企业的利润以及整个供应链的效率。方法论角度而言,我们可以领略一下供应链(或者博弈论)领域的理论文章的常见研究思路:对每个参与者搭建一个优化模型并且得到一个解析解,在此基础上找到一个均衡点,无论是单纯策略还是混合策略,最后做各种敏感性分析(或者比较静态分析)。主题而言,供应链/运营管理相关的文章主要探讨商品的流动、钱的流动、以及信息的流动,而近年来后两者在UTD中出现的频率越来越高,而供应链金融这一领域便是研究如何通过融资、对冲、合同设计等金融手段来提升供应链的效率。这对于我们思考如何构建稳健、高效率的供应链是一个宝贵的参考角度。

精选论文 (二)

论文题目:A First-Order Approach to Accelerated Value Iteration

期刊:Operations Research

发表年份:2022

作者:Vineet Goyal, Julien Grand-Clément

原文链接:

https://doi.org/10.1287/opre.2022.2269

摘要:

马尔可夫决策过程(MDP)经常被用在许多应用中对随机系统进行建模。各种关于优化策略的有效算法,包括价值迭代(VI)和政策迭代等也被广泛研究。但是,这些算法普遍存在扩展性不佳的问题,尤其是当有限长度折扣回报的折现因子 接近1时。本文的目标是设计新的算法使λ接近1时的方法更好地扩展。我们的主要贡献是提出VI和梯度下降之间的联系,并将这种方法适用于凸优化的加速和动量中,为MDP设计更快的算法。我们理论上证明了我们的算法在计算策略的价值函数时能更快的收敛,对于可逆的MDP实例的运行时间可以扩展到O\left ( 1/\sqrt{1-\lambda } \right )。这种改进与Nesterov在凸优化中的加速和动量相似。和传统算法相比,我们的算法在理论上达到求解MDP的一阶算法的计算复杂度的下限,并且在极端情况下,依然能保证算法的收敛性;在实际大型测试用例中,算法也有很好的实验表现并有明显的加速。

文章亮点/点评:马尔可夫决策过程 (MDP) 被广泛应用于不确定性有序决策问题的建模。其目标是在固定的衰减系数 (\lambda \in \left ( 0,1 \right )) 找到一个能使无限时域折扣奖励最大化。本文通过设计算法减少对Bellman 操作的评估,进而使算法在少于价值迭代的迭代次数就能收敛。本文考察了梯度下降和价值迭代之间的关系,并设计了基于Nesterov 加速和Polyak’s 动量的价值迭代的加速算法-Accelerated Value Iteration (A-VI) 和 Momentum Value Iteration (M-VI)。本文提供了丰富的实例来论证加速算法的有效性,其收敛速率,理论中和实践中都被证明有极大提高。

精选论文 (三)

论文题目:Local Search Algorithms for the Composite Retrieval Problem

期刊:International Transactions in Operational Research

发表年份:2022

作者:M. Moyano, P. Zabala, G. Gatica and G. Cabrera-Guerrero

原文链接:

https://doi.org/10.1111/itor.13112

摘要:

在本文中,我们解决了信息检索(IR)中出现的一个问题,称为多样化和互补捆绑的复合检索问题(CRP)。CRP 旨在将项目分组为捆绑,然后选择此类捆绑的子集,以便我们可以最大化捆绑中项目的相似性,同时可以最大化所选捆绑的互补性。为此,CRP 方法考虑了项目属性之间的现有关系,导致选择满足用户期望的捆绑包,而不需要任何细化查询,从而改善了搜索体验,相对于传统的 IR 方法。在这项研究中,我们提出了三种高效而直接的算法,即局部搜索、迭代局部搜索和可变邻域搜索。此外,每个算法都会评估两个不同的邻域移动。尽管第一个邻域移动侧重于对附近搜索空间的利用,但第二个邻域移动侧重于对更大部分搜索空间的探索。所有这些算法都应用于两个真实世界的公开可用实例,并与 CRP 中最先进的算法进行了比较。获得的结果表明,结合两个邻域移动可以在捆绑的互补性和项目的相似性方面产生更好的结果。此外,结果表明,经过统计分析,与 CRP 中最先进的算法相比,对于本研究中进行的绝大多数实验,所提出的算法明显更好。

文章亮点/点评:如果你想知道如何更准确的根据互联网上提供的信息组织旅行,那一定要看看这篇文章。通常大家在计划旅行时都需要多次搜索才能收集所需目的地的信息,比如说旅游景点,地理位置,访问的必要时间,其他旅行者的意见和价格等等。如果在目的地停留一定天数,旅行者可能希望安排何时访问这些景点,可能还想在同一天参观各种各样的景点(博物馆,公园,教堂,市场和购物中心),还有可能游客不想花时间从一个景点到另一个景点。理想情况下,每个行程都应涵盖目的地的不同角度。生成满足用户期望的行程可以通过将此问题建模为CRP来完成,从而获得更好的用户体验。想要解决这类复合检索问题,来看看这篇文章吧。

精选论文 (四)

论文题目:Optimization-Based Scenario Reduction for Data-Driven Two-Stage Stochastic Optimization

期刊:Operations Research

发表年份:2022

作者:Dimitris Bertsimas, Nishanth Mundru

原文链接:

https://doi.org/10.1287/opre.2022.2265

摘要:

我们提出了一种基于优化的新颖方法,该方法考虑目标函数和问题结构,以减少解决两阶段随机优化问题所需的场景数量。我们开发了相应的基于凸优化的算法,并表明随着场景的数量增加,所提出的方法能获得SAA解决方案。我们报告了算法在合成和现实世界数据集上的计算结果,实验表明,与其他最先进方法相比,我们的算法在的m=1-2% 时,效果有极大提升。此外,我们还基于提出了经典场景减少算法(依赖欧几里得范数)的变体算法,并表明这些变体始终优于其传统算法。

文章亮点/点评:很多不确定性决策优化算法都可以被表达为随机优化问题。本文中我们考虑通过减少场景,使用小的分布的方法来近似真实的分布。该方法充分利用目标函数和约束的信息来计算这个小的分布,以达到更好的近似。我们知道,当场景非常多时,SAA问题就无法计算,我们的方法可以在保证目标函数下降的同时提高计算的便利性。算法的另一个优势是保证实际应用中可以用较少的场景获得更好的效果。这对于寻求对影响成本的场景的直觉的决策者来说很有价值,有助于更好地理解解决方案并指作出决策。在本文中,我们证明了通过考虑成本函数,使用优化来计算较少的场景集可以提高处理能力、准确性和可解释性。

精选论文 (五)

论文题目:Simulation-Based Prediction

期刊:Operations Research

发表年份:2022

作者:Eunji Lim, Peter Glynn

原文链接:

https://doi.org/10.1287/opre.2021.2229

摘要:

本文考虑的问题是在收集到真实世界的观测结果后使用仿真来做预测。一个主要的挑战是仿真当中状态的描述通常包含真实系统中未观察到的信息。这使得我们在初始化一种与最近观测值一致的仿真算法时非常具有挑战性,尤其是当仿真过程不经常访问最近观测值时。我们的估计方法包含了“分支(Splitting)”的使用,让我们得以从与最近观测值一致的状态来启动多个仿真。我们为离散和连续的现实观测值的场景中提供了估计器(Estimator),其中在连续观测值的场景中我们系统性地采用了内核平滑方法。

文章亮点/点评:这篇文章从introduction开始就充满了很多数学公式。文章一共分为7部分,第二章节介绍一些符号及定义,第三章关于不依赖于模拟并且仅使用观察到的可用真实世界数据的预测器的开发,第四章包含了主要结果并描述了一组基于模拟的预测器,第五章是第四章的扩展,第六章展示了提出的预测器数值性能,第七章作为了全文的结语。如果想要阅读明白文章里的内容,建议提前预留出至少半天的时间。

精选论文 (六)

论文题目:Nonasymptotic Analysis of Monte Carlo Tree Search

期刊:Operations Research

发表年份:2022

作者:Devavrat Shah, Qiaomin Xie, Zhi Xu

原文链接:

https://doi.org/10.1287/opre.2021.2239

摘要:

在这篇文章中,我们在强化学习的框架内,在无限期马尔可夫决策过程的设定下,考虑非常流行的基于树的搜索策略:蒙特卡洛树搜索(MCTS)。虽然MCTS被普遍认为在足够的仿真次数下能够近似任意给定状态下的值函数,但是这个命题的证明是不完整的。这是因为MCTS的变种,即树的置信区间上限(UCT),在此前的研究中对基于树的搜索中的探索-利用(exploration-exploitation)平衡采用对数奖励来做权衡,其背后的思想来自于随机多臂老虎机(MAB)的研究。实际上,这种方法假设了隐含的迭代式相互依赖的非稳态MAB的后悔值(regret)以相对于迭代次数指数的速度聚集(concentrate)于他们的均值,但这条假设基本不现实,即使对于稳态MAB而言。本文的关键贡献在于,我们发现了一类非稳态MAB的后悔值的多项式聚集的性质,我们从而能够证明MAB中带恰当的多项式(而非对数)奖励的MCTS也带有多项式聚集的性质。非常有意思的是,实证研究中的一些成功的方法采用了类似的MCTS的多项式形式,与我们的理论发现一致。基于这个发现,我们认为结合监督学习中的最近邻方法,MCTS可以作为一个“策略提升(policy improvement)”的算子,即它能够结合监督学习来迭代地提升值函数在所有状态下的近似,即使只衡量了有限的状态。实际上,我们发现,为了学习值函数相对于l_{\propto }范数的ε-近似,结合最近邻的MCTS需要一个\bar{O}\left ( \varepsilon ^{-\left ( d+4 \right )} \right )量级的样本数量,其中𝑑是状态空间的维度。这是接近最优的因为minimax下界是\bar{\Omega }\left ( \varepsilon ^{-\left ( d+4 \right ))} \right ),这也展示了我们在这里提出的MCTS的变种以及结果分析的优势。

文章亮点/点评:初读此文的感受之一一定是多臂老虎机的后悔值分析简直太难了,本文更是考虑了非渐近条件,即有限样本下蒙特卡洛树搜索的表现如何,可以说难上加难。在阅读此类理论文章的时候在惊叹于作者的证明之外,更要关注文章结论的意义。就本文而言,虽然作者推导得到了一个算法收敛所需要的样本数量的量级,但是这个量级较难为实际应用提供价值,因为它的维度灾难实在太灾难了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值