Awesome 论文合集｜如何追踪 MCTS 的前沿动态？来看看 LightZero 旗下的蒙特卡洛树搜索论文合集吧！（1）-CSDN博客

本文链接：https://blog.csdn.net/m0_55289267/article/details/131112855

2016年 AlphaGo [1] 与李世石的世纪对决可谓是开启了近十年来人工智能技术探索和发展的浪潮。在围棋这一人类最经典优美的智力游戏上，传统的搜索算法往往迷失在浩如烟海的搜索空间中，朴素的神经网络设计也难以捕捉复杂多变的决策序列数据分布，但是，巧妙地将二者相结合，化用蒙特卡洛树搜索算法（Monte Carlo Tree Search, MCTS）和神经网络算法各自的优势，就孕育出了媲美甚至超过人类围棋职业棋手水准的 AlphaGo 智能体。而这背后所对应的 MCTS 系列技术流派，也从围棋一路拓展到象棋 [2]、视频游戏 [3]、视频编解码 [4] 和高性能计算 [5] 等等不同决策智能领域，进而成为决策智能领域数据利用率最高，训练稳定性最强的系列算法之一。

决策智能相关业态发展

但另一方面，由于 MCTS 系列技术涉及了多种经典算法的拓展与组合，其运行模块的设计就需要包含多方面的内容，进而导致这样的窘境——即虽然算法的能力在不断进步，但是算法的应用难度却逐年升高。具体来说，其中包含强化学习分布式系统的构建，树搜索算法的高效实现和并行化，经验回放中数据的统一管理与高效增删改查操作的执行，深度神经网络的高效推理与数据并行训练等技术栈。因此，开源社区对于相关算法工具的关注度也日渐水涨船高，相继出现了 KataGo [6]、AlphaZero-General [7]、MuZero-General [8] 等一系列工具项目，不断降低 MCTS 技术的使用门槛和应用开销。不过，已有的开源项目更多偏向于棋类游戏或是入门级示例环境，仍然限制了 MCTS 类算法的应用范围，无法拓展到更多有趣或有意义的用途，研究界最新的技术成果和前沿视角也未能完全融入现有工具，导致相关技术仍然是少数研究者手中的“屠龙之术”。

为了充分发挥 MCTS 系列算法技术的潜力，提升相关技术在各个决策智能领域的易用性与实用价值，上海人工智能实验室开源决策智能平台（OpenDILab）团队开源了 LightZero 项目，致力于打造一统 MCTS 的集大成之术。

欢迎体验LightZero：

https://github.com/opendilab/LightZero

什么是 MCTS？

蒙特卡洛树搜索（MCTS）是一种高效的在线规划（Planning）方法，对大规模的、机制复杂的决策问题拥有极高的效率与稳定性，在棋类、视频游戏等诸多领域展现了卓越性能。这种方法借助模拟当前决策状态的期望结果，评估决策搜索树中的各个分支，选出最优方案。与传统搜索方法相比，MCTS 具有以下三大优势：

1.高效：MCTS 是一种高度选择性的、最强优先的搜索方法，能迅速关注搜索空间中最有潜力的区域。它并不会考虑决策空间所有可能的情形，而是通过合理的采样与分析选择某些局部，从而克服维数诅咒。

2.易用：MCTS 只需一个黑盒的决策问题模拟器，就可以高效地构建搜索树，从而解决各种各样过大、过复杂、以至难以显式建模概率分布的问题。

3.强大：MCTS 利用随机模拟来评估决策行为的长期潜力，从而实现长时间周期的规划。通常情况下，无需任何启发式搜索方法或先验领域知识。配合一些高效的探索策略，MCTS 能够稳定地收敛到最优策略。

前文提到的 AlphaGo 背后的核心技术就包括蒙特卡洛树搜索、深度神经网络（Deep Neural Networks）以及强化学习（Reinforcement Learning）。通过这些技术，AlphaGo 可以评估围棋棋盘的局势，并自主地选择最佳的下一步行动。在 AlphaGo 出现之前，人们普遍认为围棋领域的人工智能还需要很长时间才能达到顶级水平。然而，AlphaGo 的成功打破了这一观念揭示了人工智能在处理复杂问题上的潜力。

决策搜索树

近年来，研究者通过不断的算法创新，将 AlphaGo 进行了一系列扩展，以解决各种实际问题。例如：

AlphaZero [2]：不依赖于除游戏规则之外的任何先验知识，通过完全无人参与的自我对弈（self-play）进行训练，无需借助人类围棋棋谱，从随机策略出发，可在国际象棋、将棋和围棋等游戏中达到超越人类的水平。
MuZero [3]：即使不知道游戏规则（比如环境状态转移函数），也可通过学习抽象的环境模型，在 Atari 视频游戏和传统棋类上达到最先进的水平。

LightZero 项目罗列了 MCTS 相关的一系列高水平论文，并会在日后会不断更新。

欢迎体验 Awesome MCTS papers：

https://github.com/opendilab/LightZero#awesome-mcts-papers

精选论文

论文标题：Mastering Atari Games with Limited Data

作者：Weirui Ye, Shaohuai Liu, Thanard Kurutach, Pieter Abbeel, Yang Gao

链接：https://arxiv.org/abs/2111.00210

论文标题：Learning and Planning in Complex Action Spaces

作者：Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Mohammadamin Barekatain, Simon Schmitt, David Silver

链接：https://arxiv.org/pdf/2104.06303.pdf

论文标题：Online and Offline Reinforcement Learning by Planning with a Learned Model

作者：Julian Schrittwieser, Thomas Hubert, Amol Mandhane, Mohammadamin Barekatain, Ioannis Antonoglou, David Silver

链接：https://arxiv.org/abs/2104.06294

论文标题：Vector Quantized Models for Planning

作者：Sherjil Ozair, Yazhe Li, Ali Razavi, Ioannis Antonoglou, Aäron van den Oord, Oriol Vinyals

链接：https://arxiv.org/pdf/2106.04615.pdf

论文标题：Planning in Stochastic Environments with a Learned Model

作者：Ioannis Antonoglou， Julian Schrittwieser，Sherjil Ozair，Thomas Hubert，David Silver

链接：https://openreview.net/pdf?id=X6D9bAHhBQ1

论文标题：Muesli: Combining Improvements in Policy Optimization

作者：Matteo Hessel, Ivo Danihelka, Fabio Viola, Arthur Guez, Simon Schmitt, Laurent Sifre, Theophane Weber, David Silver, Hado van Hasselt

链接：https://arxiv.org/pdf/2104.06159.pdf

参考文献

[1] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. nature, 2016, 529(7587): 484-489.

[2] Silver D, Hubert T, Schrittwieser J, et al. Mastering chess and shogi by self-play with a general reinforcement learning algorithm[J]. arXiv preprint arXiv:1712.01815, 2017.

[3] Schrittwieser J, Antonoglou I, Hubert T, et al. Mastering atari, go, chess and shogi by planning with a learned model[J]. Nature, 2020, 588(7839): 604-609.

[4] Mandhane A, Zhernov A, Rauh M, et al. Muzero with self-competition for rate control in vp9 video compression[J]. arXiv preprint arXiv:2202.06626, 2022.

[5] Fawzi A, Balog M, Huang A, et al. Discovering faster matrix multiplication algorithms with reinforcement learning[J]. Nature, 2022, 610(7930): 47-53.

[6] Wu D J. Accelerating self-play learning in go[J]. arXiv preprint arXiv:1902.10565, 2019.

[7] https://github.com/suragnair/alpha-zero-general

[8] https://github.com/werner-duvaud/muzero-general