面试的时候被要求了解muzero相关算法,本文根据Julian 等人在2020年发表的”Mastering Atari, Go, Chess and Shogi by Planning with a Learned Mode” 一文,研读并汇报了文中的Muzero算法。相对于Alpha zero, Muzero无需预先了解游戏的游戏规则,比如在棋盘游戏中,只需要去告知哪一步的移动是被允许的,就可以自主去推演出致胜的策略。报告主要分为三个部分,分别介绍了Muzero 的模型组成,Muzero搜索策略以及学习训练过程。
Muzero模型组成
Muzero model包含planning, acting, training三个部分,分别对应prediction function,dynamics function和representation function, 各个function的输入输出关系如下表。
Function name |
Input |
Output |
prediction |
current hidden state
|
current policy, c |