蓝天创意赛道
James Rudd-Jones
伦敦大学学院计算机科学系人工智能中心
伦敦,英国
james.rudd-jones.22@ucl.ac.uk
Mirco Musolesi
伦敦大学学院计算机科学系人工智能中心
伦敦,英国
博洛尼亚大学计算机科学与工程系
博洛尼亚,意大利
m.musolesi@ucl.ac.uk
摘要
气候政策的制定面临着深层不确定性、复杂系统动态和利益相关者竞争等重大挑战。气候模拟方法,如地球系统模型,已成为探索政策的宝贵工具。然而,它们通常用于评估潜在政策,而非直接生成政策。问题可以通过反转来优化政策路径,但传统优化方法往往难以应对非线性动态、异构智能体和全面的不确定性量化。我们提出了一种框架,通过多智能体强化学习(MARL)增强气候模拟以解决这些限制。我们在气候模拟与MARL在政策综合中的应用接口处识别了关键挑战,包括奖励定义、随着智能体和状态空间增加的可扩展性、链接系统中的不确定性传播以及解决方案验证。此外,我们讨论了使MARL衍生的解决方案对政策制定者具有解释性和实用性的挑战。我们的框架为更复杂的气候政策探索提供了基础,同时承认重要限制和未来研究领域。
关键词
多智能体强化学习;地球系统模型;综合评估模型;政策制定
ACM参考格式:
James Rudd-Jones, Mirco Musolesi 和 María Pérez-Ortiz. 2025. 多智能体强化学习模拟以实现环境政策综合:蓝天创意赛道。In Proc. of the 24th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2025),底特律,密歇根州,美国,2025年5月19日至23日,IFAAMAS,6页。
1 引言
气候政策的推导代表了社会最困难的治理挑战之一,其特征在于深层不确定性、利益相关者的竞争利益和跨社会、经济和环境系统的复杂相互依赖 [44]。在国家层面,气候政策制定通常涉及分析减排潜力、技术路径评估和政策行动评价 [13]。考虑多利益相关者以确保连贯的方法,但在扩展到大陆或全球规模时,这一过程更具挑战性。这种传统方法由于社会环境领域的根本困难而面临更多挑战,可以总结为三点。首先,全球气候系统在行动和下游效应之间存在显著的时间延迟。许多这些效应未被监测或难以捕捉,进一步增加了这种延迟,并使得政策实施与可观测结果之间的因果关系难以巩固 [21]。这种时间断层可能跨越数十年,使得评估政策有效性并根据新兴数据调整策略变得非常具有挑战性 [37]。其次,气候政策往往在不同的社会经济群体和地区产生不均匀分布的影响,可能会加剧现有的不平等并引发政治阻力 [4]。第三,地球系统中存在的临界点和反馈回路引入了传统政策分析难以应对的非线性动态 [16]。当前气候政策发展的方法高度依赖于国际谈判和各种科学学科的证据综合。像IPCC这样的组织协调巨大的努力以提供政策相关的见解 [32]。然而,这一过程可能缓慢、受到政治约束,并有时未能捕捉到所有可能的政策干预措施 [52],包括气候预测中固有的深层不确定性 [25]。
基于模拟的方法已作为解决这些限制的关键工具出现。它们使政策制定者能够在无风险的环境中探索潜在结果,促进各种政策组合及其长期影响的评估 [51]。能够量化政策的预测效果不仅指导政策推导过程,还提供了应对批评者所提问题的证据 [2]。地球系统模型(ESMs)提供了一个关键的模拟框架,提供大气、海洋和陆地过程的高分辨率表示 [8]。例如,它们通过模拟温度、降水和极端天气事件的变化,直接为国家碳预算和适应策略提供了信息 [41]。然而,它们在政策制定中的实用性通常受到限制,因为社会影响往往不是这些模型中的内部过程。外生变量,如大气中的碳含量,随着时间的推移改变以“模拟”人类活动影响,对气候变化如何影响社会的反馈有限 [43]。相反,综合评估模型(IAMs)结合了社会经济和环境组件以模拟气候社会经济互动,代表了当前气候政策模拟的最新水平。一般来说,它们使用从ESMs简化而来的环境过程,但连接的社会经济模拟允许环境和社会之间更明确的反馈循环。著名的例子包括DICE模型 [27]、REMIND [18] 和 GEMINI-E3 [1]。联合国网站上公开列出了用于决策的二十九个IAMs [48],例如GEMINI-E3用于分析COP26格拉斯哥会议中各国政策未来的 C O 2 \mathrm{CO}_{2} CO2排放轨迹 [49]。IAMs比ESMs更优,因为它允许更直接的方式评估政策干预,因为环境和社会之间的级联效应是相连的。重要的是,问题可以“反转”;我们可以针对理想化的政策进行优化。我们专注于IAMs,因为这个特性,在ESMs中这种联系并不那么紧密。在ESMs中,我们可以定义优化标准,但所得解决方案与政策没有明确的联系,也没有明确的“动作”。对于IAMs的传统优化方法(例如模型预测控制 [9]),解决一组效用函数。然而,可能依赖于简化假设、离散状态空间和局部线性近似以使问题计算上可行 [3, 46]。这些求解器通常仅探索可能解空间的一小部分,可能错过创新的政策组合 [31]。此外,大多数模型使用高度聚合的社会经济智能体表示,无法捕捉利益相关者行为和互动的多样性 [22]。最后,IAMs中的这些方法通常集中于找到单一的“最优”解决方案,这可能无法充分捕捉所有可能结果的范围 [57]。这本身可能无法捕捉气候系统响应和社会经济发展中存在的某些不确定性。
这些限制指出了需要更复杂的方法来更好地处理不确定性、复杂系统动态、异构智能体之间的互动以及可能政策组合的广阔解空间。现代计算技术,特别是强化学习(RL)和多智能体强化学习(MARL),提供了应对这些挑战的有希望的能力。RL方法可以通过提供对政策空间的更强大探索、不需要线性假设以及改进的不确定性处理来克服这些限制。MARL方法可以更好地表示智能体异质性以制定有弹性的政策。对于单智能体场景,[46]和[58]最近的工作将一个RL智能体应用于IAM中,生成通往定义好的“经济和环境积极未来”的政策指导路径。[46]和[58]都使用单一智能体,因此假设一个“统一”的地球,其中有一个集体共享的目标,限制了智能体异质性的潜力。对于智能体异质性,[60]创建了RICE-N模型,这是[24]开发的区域综合气候与经济模型(RICE)模型的扩展,该模型模拟了十二个
全球地区。RICE-N模型赋予IAM贸易和谈判动态以促进智能体之间的进一步互动 [60]。此外,[38]扩展了[58]中的环境至多个智能体,利用低维环境获得的可解释性来理解政策路径。
2 朝向MARL衍生气候政策的框架
ESMs和IAMs可用于在一个安全的模拟空间中验证潜在政策互动。更重要的是,我们可以反向工作并推导出最优政策。尽管ESMs可以受到人为影响,我们将IAMs作为案例研究,因为它们在社会和环境系统之间有更直接的联系,更适合优化。RL能够建模非线性随机系统,极大地与其在IAM动力系统中的使用相一致,并且考虑到长期奖励,非常适合用于政策轨迹推导。重要的是第一步,我们如何将IAM重新表述为RL问题,或者更具体地说,我们能否将IAM设置为马尔可夫决策过程(MDP)[36]以供RL使用,或作为随机博弈(SG)[40]以供MARL使用?IAM已经与RL环境有着显著的结构相似性;它们本质上需要目标函数如果优化的话,可以用作奖励函数。此外,动作可以定义为随时间变化的模型参数以反映某种政策轨迹。例如,投资决策、政策实施和技术采用率。总之,利用RL/MARL与IAM所需的一切就是定义一组动作,并访问运行中的模拟器输出或将模拟器移植到适合RL/MARL研究的编程语言中。
为什么使用MARL?人为气候变化本质上涉及具有混合动机、战略互动和复杂合作竞争动态的异构参与者——这些都是单智能体RL无法充分捕捉的元素。正如IAM文献中的主要批评意见所示,经济和行为动态被单一实体的表示方式所拙劣呈现 [19, 22]。此外,MARL能够建模长期战略行为,同时考虑多个交互实体,使其特别适合于气候政策建模 [12, 15]。
我们用MARL优化什么?转向MARL时的一个澄清问题是,我们如何看待优化。我们认为有两个主要观点,这需要对MARL应用施加某些限制。首先,可以专注于纯粹建模所有异构智能体一起互动——我们想了解智能体之间的动态作为一种形式的顺序社会困境(SSD)。MARL已作为研究SSD和“公地悲剧”类型情景的强大框架出现,提供了对新兴社会动态和均衡行为的见解。与通常依赖一次性互动的传统博弈论方法不同,MARL实现了具有复杂状态动态的重复顺序决策 [15]。这种方法在公共资源问题中证明特别有价值,智能体必须在短期个体奖励和长期集体福利之间取得平衡 [12]。这些研究表明,MARL不仅可以作为无需重假设就能找到博弈论均衡的工具,还能提供关于驱动复杂、动态环境中社会行为和合作演变机制的见解 [33, 47]。从这一观点得出的结果可以帮助领域专家理解某些模拟或智能体参数对IAM均衡的影响。
其次,一种更实际的方法是为一个或一部分智能体规划政策路径,并使用其他实体的代表性模型。所得路径可用于指导政策制定者的决策,因为该框架提供了其有效性的证据。例如,模拟中的其他智能体(我们在现实中对其没有控制权)可以使用历史数据进行模仿学习以代表现实世界实体的虚拟版本。MARL智能体可以根据IAM的有效性以及代表智能体的有效性,学习对这些预训练智能体的最佳响应。这种方法与Ad-Hoc Teamwork领域类似 [45, 53, 54],它探讨了智能体如何与新颖和未知的合作伙伴进行交互。第二种框架需要使用去中心化算法方法,因为智能体不能共享模型参数、奖励或观察。
3 开放挑战
奖励定义。任何优化方法中的常见问题都是目标函数,这需要对选定的目标变量或参数有一定的偏向 [35]。激励这些目标函数很棘手,取决于建模者的判断 [35]。同样对于RL和MARL,我们有奖励函数的定义问题,这可能是一个任意选择。这里有两个方面,RL/MARL中的奖励可以比目标函数更抽象。例如,达到某个最终状态的二进制奖励,编码了诸如可持续性和公平性等复杂目标,但可能掩盖了底层模拟的重要细节 [42]。我们可以设定丰富的奖励信号,例如直接与标准化的经济或环境变量相关。在这个领域,即使密集奖励也可能收到许多连续的负面“差”奖励(例如,严格的立法)直到达到“正面”结果。这是一个典型的深度探索任务在RL中(例如深海 [30]),通常需要基于不确定性的探索方法来充分搜索解空间 [6]。基于不确定性的RL探索是一个广泛的领域 [7, 28, 29],但在MARL中尚未得到充分探索 [11, 20, 39, 61]。由于转换函数中的非平稳性,似乎更有必要进行原则性的探索。此外,当达到气候临界点时,气候可以迅速变化,要求其他智能体快速做出行为反应,这进一步加剧了非平稳性 [5]。
可扩展性。RL和MARL方法在复杂的IAM环境中比传统的最优控制方法更为擅长,但也可能面临可扩展性问题。特别是在MARL中,增加智能体数量可能导致集中式训练方法中状态和动作空间呈指数增长 [59]。所需的去中心化方法(适用于第二种MARL视角)通常更容易扩展,因为模型参数不共享。然而,协调变得更加具有挑战性,因此需要更复杂的方法,这影响了扩展,尤其是当智能体数量超过数百个时。此外,大规模IAM如Intertemporal General Equilibrium Model [26] 具有4000个内生变量,导致任何RL应用的状态空间都非常大。达到这些IAM不仅在算法方面提出了挑战,这些大型模拟器还需要更大的计算预算,进一步增加了训练时间。困难在于耦合这些系统——经济冲击影响社会反应,这又影响气候政策实施,形成复杂的级联效应 [23]。
不确定性表示。理解模型不确定性对于下游使用至关重要,必须理解何时我们的时序预测变得不比随机选择更好。IAMs面临着来自多个来源的重大不确定性。每个单独的社会经济和环境模型都有其自身的认知不确定性,源于建模假设和底层过程中固有的噪声引起的不确定性。由于这些模型都是相互关联的,因此在它们的相互作用中存在更多的不确定性,特别是气候敏感性、损害函数和经济增长预测 [10, 34]。此外,IAMs跨越多个时间和空间尺度,从短期经济决策到长期气候动态。不确定性在这些尺度上累积,使得准确表示地方影响和全球过程之间的相互作用变得困难 [50]。决策变得不可行,因为许多气候风险表现出厚尾概率分布 [56]。如前所述,基于不确定性的RL方法可以带来对解空间的更深入探索,并有机会适应这些不确定性更高的区域。然而,通常探索是由RL智能体的认知不确定性引导的,而不考虑由模拟器带来的偶然不确定性 [7]。重要的是,我们如何将来自链接模型的多种不确定性因素考虑进去,以获得对建议解决方案更好的校准不确定性概念?
解决方案验证。将IAM改编为MDP或SG的验证可以相当简单,模拟动态可以进行比较,通常如[38]所示差异最小。将传统优化方法与RL和MARL解决方案进行比较也非常相似。潜在路径或最终访问状态之间的距离度量量化了框架的性能。真正的挑战在于验证具有现实适用性的模拟解决方案,这与仿真智能和模型验证中的更广泛问题相关 [14]。完美验证针对真实世界结果,特别是长期气候预测,由于这些系统的内在随机性而充满风险。重要的是,更容易识别和验证不可行或不理想的轨迹,这些轨迹可能进入我们更有把握认为不正确的解空间区域。映射危险轨迹为决策者提供了避免灾难性情景的宝贵见解。量化和理解负面结果可能与识别最优解决方案一样重要。
解决方案分布。传统优化方法通常只提供一个最优解而不描述该方法的稳健性 [57]。由于IAMs固有的不确定性以及精确遵循投影路径的挑战,具有更大容错能力的解决方案,即对冲击或临界点更具弹性的解决方案,是更可取的。在RL/MARL中,这可以通过评估初始状态各异的最优智能体策略来获得解决方案分布。这可能是一种繁琐的方法,因为如果发现最优解
不具备鲁棒性,则需要重新训练智能体并迭代该过程。相反,[17]最近的工作在复杂的高度动态环境中找到了一系列多样化的最优解。
可解释性与可解释性 - 在任何机器学习应用中,可解释性都是一个广泛的挑战,尤其在使用复杂的非线性模型时的RL/MARL更是如此。虽然传统的控制方法如MPC通过明确的优化目标和约束条件提供了更清晰的决策洞察,但深度RL方法通常作为黑箱操作。大多数方法提供事后解释,试图理解智能体动作与某些状态之间的关系。我们的框架提供了IAM解空间中的政策轨迹,但这些较大的状态空间很容易超出人类可解释的三维空间。下游用户如何解释解决方案?我们是否可以在高维空间中可视化政策轨迹?
4 局限性
首要的是,MARL解决方案只能与其底层模拟器一样有效;改进的优化解决方案不能超越不完善模型的限制。这在这些环境领域中尤为成问题,这些领域以前所未有的情景或复杂的新兴现象为特征,如极端天气模式,当我们越过气候临界点时 [5]。当前气候模拟器可能难以准确建模人为导致的气温上升与下游效应之间的反馈回路,这可能导致MARL基政策推荐中的潜在危险盲点。尽管在RL框架内的开放式学习方面取得了进展 [55],但这种能力必须与同样适应性强的模拟环境相匹配——这一要求可能超出了当前建模能力。然而,这些局限性并未完全削弱我们方法的价值;由于我们的框架对底层世界系统模型(ESM或IAM或其他)保持中立,它可以随时整合改进的模拟器,确保在各种领域和建模范式下的适应性。
5 结论
本文介绍了一个通过将MARL与IAM集成来增强气候政策探索的框架。虽然MARL在处理非线性动态、智能体异质性和不确定性量化方面提供了有希望的能力,但仍存在重大挑战。该框架的成功取决于解决关键挑战,包括在稀疏奖励设置中的原则性探索、算法和模拟的可扩展性以及耦合系统中不确定性的传播。此外,将MARL衍生的解决方案转化为可执行政策需要在可解释性和可视化技术方面的进步。我们强调了三个有前景的研究方向:1. 针对IAM中固有的多种不确定性源的不确定性驱动MARL算法;2. 可能依赖于链接仿真的广域状态空间的MARL;3. 特别针对广域状态空间的可解释RL技术。我们希望这篇立场论文能够推动通过模拟衍生的气候政策的改进,支持政治指导,将地球的轨迹带回宜居和稳定的未来。
参考文献
[1] Alain Bernard 和 Marc Vielle. 2008. GEMINI-E3,一个通用均衡模型,用于国际-国家间经济、能源和环境的相互作用。Computational Management Science 5, 3 (2008), 173-206.
[2] Paul Cairney. 2016. 基于证据的政策制定的政治学。Springer.
[3] Guillaume Deffuant 和 Nigel Gilbert. 2011. 可持续性和弹性复杂系统:概念、方法和案例研究来自生态和社会。Springer.
[4] Neadi S Diffenbaugh 和 Marshall Burke. 2019. 全球变暖增加了全球经济不平等。Proceedings of the National Academy of Sciences 116, 20 (2019), 9868-9813.
[5] Isaiah Farabhakhsh, Chris T Baach 和 Madhur Anand. 2024. 耦合人-环境系统模型中的临界点:综述。Earth System Dynamics 15, 4 (2024), 947-967.
[6] Matthew Fellows. 2021. 强化学习中的贝叶斯和变分推理。博士论文。牛津大学。
[7] Matte Fellows, Brandon Kaplowitz, Christian Schroeder de Witt 和 Shimon Whiteson. 2025. 贝叶斯探索网络。arXiv preprint arXiv:2308.13049 (2023).
[8] Gregory Plato, Jochem Marotzke, Babatunde Abiodun, Pascale Braconnot, Sin-Chan Chou, William Collins, Peter Cox, Fatima Driouech, Seita Emori, Veronika Eyring 等. 2014. 气候模型评估。气候变化2013:物理科学基础。第一工作组对政府间气候变化专门委员会第五次评估报告的贡献 (2014), 741-866.
[9] Carlos E Garcia, David M Prett 和 Manfred Morari. 1989. 模型预测控制:理论与实践调查。Automatica 25, 3 (1989), 335-348.
[10] Kenneth Gillingham, William D Nordhaus, David Anthoff, Geoffrey Blanford, Valentina Bosetti, Peter Christensen, Haewon McJeon, John Reilly 和 Paul Setorc. 2015. 气候变化中的不确定性建模:多模型比较。国家经济研究局工作论文系列 w21637 (2015).
[11] Junyo Hao, Tianpei Yang, Hongyao Tang, Chenjia Bai, Jinyi Liu, Zhaopeng Meng, Peng Liu 和 Zhen Wang. 2023. 深度强化学习中的探索:从单智能体到多智能体领域。IEEE Transactions on Neural Networks and Learning Systems (2023).
[12] Edward Hughes, Joel Z Leibo, Matthew Phillips, Karl Tuyls, Edgar Dueñez-Guzman, Antonio Garcia Castañeda, Iain Dunning, Tina Zhu, Kevin McKee, Raphael Koster 等. 2018. 不平等厌恶改善了跨时间社会困境中的合作。第32届神经信息处理系统高级会议(NeurIPS’18)论文集。
[13] Mike Hulme 和 John Turnpenny. 2004. 理解和管理气候变化:英国经验。Geographical Journal 170, 2 (2004), 105-115.
[14] Alexander Lavin, David Krakauer, Hector Zenil, Justin Gottschlich, Tim Mattson, Johann Brehmer, Anima Anandkumar, Sanjay Choudry, Kamil Rocki, Atilim Güneş Baydin 等. 2021. 模拟智能:新一代科学方法的展望。arXiv preprint arXiv:2112.03235 (2021).
[15] Joel Z Leibo, Vinicius Zambaldi, Marc Lanctot, Janusz Marecki 和 Thore Graepel. 2017. 序列社会困境中的多智能体强化学习。第16届自主代理和多智能体系统国际会议(AAMAS’17)论文集。
[16] Timothy M Lenton, Johan Rockström, Owen Gaffney, Stefan Rahmstorf, Katherine Richardson, Will Steffen 和 Hans Joachim Schellnhuber. 2019. 气候临界点——冒险打赌反对。Nature 575, 7784 (2019), 592-595.
[17] Borja G Leon, Francesco Riccio, Kaushik Subramanian, Peter R Wurman 和 Peter Stone. 2024. 通过DUPLEX发现创造性行为:政策探索的多样化通用特征。arXiv预印本。
[18] Gunnar Luderer, Robert C Pietzcker, Christoph Bertram, Elmar Kriegler, Malte Meinshausen 和 Ottmar Edenhofer. 2013. 经济减缓挑战:进一步延迟关闭实现气候目标的大门。Environmental Research Letters 8, 3 (2013), 034033.
[19] Kaveh Madani. 2013. 更负责任地建模国际气候变化谈判:高度简化的博弈论模型能否提供可靠的政策见解?Ecological Economics 90 (2013), 68-76.
[20] Anuj Mahajan, Tahish Rashid, Mikayel Sanivelyan 和 Shimon Whiteson. 2019. Maven:多智能体变分探索。第33届神经信息处理系统高级会议(NeurIPS’19)论文集。
[21] H Damon Matthews, Kataryyna B Tokarska, Zebedee RJ Nicholls, Joeri Rogelj, Josep G Canadell, Pierre Friedlingstein, Thomas L Frölicher, Piers H Forster, Nathan P Gilbert, Tatiana Ilyina 等. 2020. 使用剩余碳预算指导气候政策的机会与挑战。Nature Geoscience 13, 12 (2020), 769-779.
[22] Jean-Francois Mercure, Hector Pollitt, Andrea M Bassi, Jorge E Viduales 和 Neil R Edwards. 2016. 建模复杂系统的异构智能体以更好地设计可持续转型政策。Global environmental change 37 (2016), 102-115.
[23] Deyu Ming, Daniel Williamson 和 Serge Guillas. 2023. 使用随机插补的深度高斯过程仿真。Technometrics 65, 2 (2023), 150-161.
[24] William D Nordhaus. 2010. 全球变暖的经济方面在后哥本哈根环境中。Proceedings of the National Academy of Sciences 107,
26 (2010), 11721-11726.
[25] William D Nordhaus. 2013. 气候赌场:风险、不确定性与变暖世界的经济学。耶鲁大学出版社。
[26] William D Nordhaus. 2013. 综合经济与气候建模。《可计算一般均衡建模手册》。第1卷。Elsevier,1069-1131。
[27] William D Nordhaus. 2017. 再访碳的社会成本。Proceedings of the National Academy of Sciences 114, 7 (2017), 1518-1523.
[28] Brendan O’Donoghue. 2023. 通过认知风险寻求策略优化实现高效探索。第40届国际机器学习会议(ICML’23)论文集。
[29] Ian Oshand, John Aslanides 和 Albin Cassirer. 2018. 深度强化学习中的随机先验函数。第32届神经信息处理系统高级会议(NeurIPS’18)论文集。
[30] Ian Oshand, Yotam Doron, Matteo Hessel, John Aslanides, Eren Sezener, Andre Saraiva, Katrina McKinsey, Tor Lattimore, Cudka Szepesvari, Satinkir Singh 等. 2020. 强化学习的行为套件。第8届国际学习表征会议(ICLR’20)论文集。
[31] Ilona M Otto, Jonathan F Donges, Roger Cremades, Avii Bhowmik, Richard J Hewitt, Wolfgang Lucht, Johan Rockström, Franziska Allerberger, Mark McCaffrey, Sylvanus SP Doe 等. 2020. 到2050年稳定地球气候的社会临界动态。Proceedings of the National Academy of Sciences 117, 5 (2020), 2354-2365.
[32] Camille Parmesan, Mike D Morecroft 和 Yongyut Trinurat. 2022. 气候变化2022:影响、适应与脆弱性。博士论文。GISC。
[33] Alexander Peysakhovich 和 Adam Lerer. 2018. 不完美信息下社会两难中的后果条件合作。第6届国际学习表征会议(ICLR’18)论文集。
[34] Robert S Pindyck. 2013. 气候变化政策:模型告诉了我们什么?Journal of Economic Literature 51, 3 (2013), 860-872.
[35] Robert S Pindyck. 2017. 气候政策模型的使用与滥用。Review of Environmental Economics and Policy (2017).
[36] Martin L Puterman. 2014. 马尔可夫决策过程:离散随机动态规划。John Wiley & Sons.
[37] Katharine L Ricke 和 Ken Caldeira. 2014. 最大变暖发生在二氧化碳排放后约十年左右。Environmental Research Letters 9, 12 (2014), 124002.
[38] James Rudd Jones, Fiona Thendean 和 Maria Pérez-Otto. 2024. 通过RL探索的社会环境模拟构建期望的气候轨迹。arXiv预印本arXiv:2410.07287 (2024).
[39] Lukas Schäfer, Oliver Slumbers, Stephen McAleer, Yali Du, Stefano V Albrecht 和 David Mguni. 2023. 集成价值函数以实现多智能体强化学习中的高效探索。Adaptive and Learning Agents Workshop (ALA 2023) 论文集。
[40] Lloyd S Slagley. 1953. 随机博弈。Proceedings of the National Academy of Sciences 39, 10 (1953), 1095-1100.
[41] Theodore G Shepherd, Emily Boyd, Raphael A Calel, Sandra C Chapman, Suraje Dessai, Ioana M Dima-West, Hayley J Fowler, Rachel James, Douglas Maraan, Olivia Martius 等. 2018. 故事线:一种替代方法来表示气候变化物理方面的不确定性。Climatic Change 151 (2018),
555
−
571
555-571
555−571.
[42] David Silver, Satinder Singh, Doina Precup 和 Richard S Sutton. 2021. 奖励就足够了。Artificial Intelligence 299 (2021), 103535.
[43] Will Steffen, Johan Rockström, Katherine Richardson, Timothy M Lenton, Carl Folke, Diana Liverman, Colin P Summerhayes, Anthony D Barnosky, Sarah E Cornell, Michel Crucifix 等. 2018. 人类世中的地球系统轨迹。Proceedings of the National Academy of Sciences 115, 33 (2018), 8252-8259.
[44] Nicholas Stern, Joseph Stiglitz 和 Charlotte Taylor. 2022. 极大风险、紧急行动和根本变革的经济学:走向新的气候变化经济学方法。Journal of Economic Methodology 29, 3 (2022),
181
−
216
181-216
181−216.
[45] Peter Stone, Gal A Kaminka, Sarti Kraus 和 Jeffrey S Rosenschein. 2010. 临时自主智能体团队:无需预先协调的合作。第24届人工智能国际会议(AAAI’10)论文集。
[46] Felix M Strnad, Wolfram Barтые, Jonathan F Donges 和 John Heitzig. 2019. 使用深度强化学习在世界-地球系统模型中发现可持续管理策略。Chaos: An Interdisciplinary Journal of Nonlinear Science 29, 12 (2019), 123122.
[47] Andrea Tacchetti, H Francis Song, Pedro AM Mediano, Vinicius Zambaldi, János Kramár, Neil C Rabinowitz, Thore Graepel, Matthew Botvinick 和 Peter W Battaglia. 2019. 多智能体学习的关系前向模型。第7届国际学习表征会议(ICLR’19)论文集。
[48] UN. 2023. 综合评估模型(IAMs)和能源-环境-经济(E3)模型 | UNFCCC。https://unfccc.int/topics/mitigation/ workstreams/response-measures/modelling-tools-to-assess-the-impact-of-the-implementation-of-response-measures/integrated-assessment-models-iams-and-energy-environment-economy-e3-models. (2024年11月13日访问)。
[49] Dirk-Jan van de Ven, Shivika Mittal, Ajay Gambhir, Robin D Lamboll, Haris Doukas, Sara Giarola, Adam Hawkes, Konstantinos Koasidis, Alexandre C Köberle, Haewon McJeon 等. 2023. 格拉斯哥后气候目标及可行性挑战的多模型分析。Nature Climate Change 13, 6 (2023),
570
−
578
570-578
570−578.
[50] Frederick van der Ploeg 和 Armon Rezai. 2019. 气候政策和综合评估的简单规则。Environmental and Resource Economics 72, 1 (2019),
77
−
108
77-108
77−108.
[51] Bob CC van der Zwaan, Hilke Rösler, Tom Kober, Tino Aboumahboub, Katherine V Calvin, David EHJ Gernaat, Giacomo Marangoni 和 David McCollum. 2013. 全球长期技术扩散的跨模型比较以实现2°C气候变化控制目标。Climate Change Economics 4, 04 (2013), 1340013.
[52] David G Victor, Frank W Geels 和 Simon Sharpe. 2019. 加速低碳转型。加强、更针对性和协调的国际行动案例。布鲁金斯学会 (2019).
[53] Caroline Wang, Arrasy Rahman, Ishan Durugkar, Elad Liebman 和 Peter Stone. 2024. N智能体临时团队合作。arXiv预印本arXiv:2404.10740 (2024).
[54] Jianhong Wang, Yang Li, Yuan Zhang, Wei Pan 和 Samuel Kaski. 2024. 使用合作博弈论的开放临时团队合作。arXiv预印本arXiv:2402.15259 (2024).
[55] Rui Wang, Joel Lehman, Aditya Rawal, Jiale Zhi, Yulun Li, Jeffrey Clune 和 Kenneth Stanley. 2020. 增强POET:通过无限发明学习挑战及其解决方案实现开放式的强化学习。第37届国际机器学习会议(ICML’20)论文集。
[56] Martin L Weitzman. 2011. 灾难性气候变化经济学中的肥尾不确定性。Review of Environmental Economics and Policy 5, 2 (2011), 275-292.
[57] John Weyant. 2017. 全球气候变化综合评估模型的一些贡献。Review of Environmental Economics and Policy (2017).
[58] Theodore Wolf, Nantas Nardelli, John Shuee-Taylor 和 Maria Perez-Ortiz. 2023. 强化学习能否支持政策制定者?综合评估模型的初步研究。arXiv预印本arXiv:2312.06327 (2023).
[59] Chao Yu, Akash Velu, Eugene Vinitsky, Jiaxuan Gao, Yu Wang, Alexandre Bayen 和 Yi Wu. 2022. PPO在合作多智能体游戏中的惊人有效性。第36届神经信息处理系统高级会议(NeurIPS’22)论文集。
[60] Tianyu Zhang, Andrew Williams, Soham Phade, Sunil Srinivasa, Yang Zhang, Prateek Gupta, Yoshua Bengio 和 Stephan Zheng. 2022. AI促进全球气候合作:在RICE-N中建模全球气候谈判、协议和长期合作。arXiv预印本arXiv:2208.07604 (2022).
[61] Luisa Zantgraf, Sam Devlin, Kamil Ciozek, Shimon Whiteson 和 Katja Hofmann. [n.d.]。通过元学习实现深度交互式贝叶斯强化学习。第20届国际自主代理和多智能体系统会议(AAMAS’21)论文集。
参考论文:https://arxiv.org/pdf/2504.12777