Muzero算法研读报告

最新推荐文章于 2023-05-07 13:23:05 发布

Tangarf

最新推荐文章于 2023-05-07 13:23:05 发布

阅读量4.9k

点赞数 4

文章标签：机器学习强化学习

本文链接：https://blog.csdn.net/jsjytc/article/details/108318156

版权

Muzero算法研读面试的时候被要求了解muzero相关算法，本文根据Julian 等人在2020年发表的”Mastering Atari, Go, Chess and Shogi by Planning with a Learned Mode” 一文，研读并汇报了文中的Muzero算法。相对于Alpha zero, Muzero无需预先了解游戏的游戏规则，比如在棋盘游戏中，只需要去告知哪一步的移动是被允许的，就可以自主去推演出致胜的策略。报告主要分为三个部分，分别介绍了Muzero 的模型组成，Muz

摘要由CSDN通过智能技术生成

面试的时候被要求了解muzero相关算法，本文根据Julian 等人在2020年发表的”Mastering Atari, Go, Chess and Shogi by Planning with a Learned Mode” 一文，研读并汇报了文中的Muzero算法。相对于Alpha zero, Muzero无需预先了解游戏的游戏规则，比如在棋盘游戏中，只需要去告知哪一步的移动是被允许的，就可以自主去推演出致胜的策略。报告主要分为三个部分，分别介绍了Muzero 的模型组成，Muzero搜索策略以及学习训练过程。

Muzero模型组成

Muzero model包含planning, acting, training三个部分，分别对应prediction function，dynamics function和representation function, 各个function的输入输出关系如下表。

Function name

Input

Output

prediction

current hidden state

current policy, c

最低0.47元/天解锁文章

Tangarf

关注

4
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
Muzero算法研读报告

Muzero算法研读面试的时候被要求了解muzero相关算法，本文根据Julian 等人在2020年发表的”Mastering Atari, Go, Chess and Shogi by Planning with a Learned Mode” 一文，研读并汇报了文中的Muzero算法。相对于Alpha zero, Muzero无需预先了解游戏的游戏规则，比如在棋盘游戏中，只需要去告知哪一步的移动是被允许的，就可以自主去推演出致胜的策略。报告主要分为三个部分，分别介绍了Muzero 的模型组成，Muz
复制链接

扫一扫