AlphaGo Zero：笔记与伪代码

最新推荐文章于 2022-11-08 14:30:18 发布

机器之心V

最新推荐文章于 2022-11-08 14:30:18 发布

阅读量5.7k

点赞数

文章标签：人工智能大数据

本文链接：https://blog.csdn.net/Uwr44UOuQcNsUQb60zk2/article/details/78431030

版权

本文介绍了AlphaGo Zero如何利用深度学习、强化学习和蒙特卡洛树搜索，从零开始达到超人水平的围棋程序。通过自我对弈和不断迭代的策略，AlphaGo Zero无需人类数据也能掌握复杂策略。伪代码展示了其训练过程，强调了它在人工智能领域的里程碑意义和潜在应用。

摘要由CSDN通过智能技术生成

近日，Google DeepMind 在 Nature 上发表了一篇论文，介绍了这家世界顶级人工智能机构在计算机围棋方面的最新研究成果 AlphaGo Zero（参阅机器之心文章《无需人类知识，DeepMind 新一代围棋程序 AlphaGo Zero 再次登上 Nature》）。这个在学习过程中没有使用任何人类知识的人工智能程序可以轻松地以 100 比 0 的成绩击败去年 3 月战胜了李世乭的 AlphaGo 版本。AlphaGo Zero 论文发布之后，阿尔伯塔大学 Yuxi Li 博士对该程序的工作原理进行了分析，并使用伪代码的方式对其训练过程进行了描述。原文链接请参见 https://pan.baidu.com/s/1jI481xW。

1 引言

2016 年 3 月，AlphaGo（Silver et al., 2016）击败了带有 18 个国际冠军头衔的人类顶级围棋手，造就了人工智能领域的一大里程碑。AlphaGo Zero（Silver et al., 2017）则实现了更进一步的提升，在不使用人类知识的情况下学习到了一个超人水平的计算机围棋程序。

AlphaGo（Silver et al., 2016; 2017）立足于深度学习、强化学习（RL）和蒙特卡洛树搜索（MCTS）。这一波深度强化学习浪潮起始于深度 Q 学习（Mnih et al., 2015）；全面概述请参阅 Li (2017) https://arxiv.org/abs/1701.07274。

Sutton 和 Barto (2017) 对 AlphaGo 进行了详细且直观的描述。关于 AlphaGo

最低0.47元/天解锁文章

机器之心V

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
AlphaGo Zero：笔记与伪代码

近日，Google DeepMind 在 Nature 上发表了一篇论文，介绍了这家世界顶级人工智能机构在计算机围棋方面的最新研究成果 AlphaGo Zero（参阅机器之心文章《无需人类知识，DeepMind 新一代围棋程序 AlphaGo Zero 再次登上 Nature》）。这个在学习过程中没有使用任何人类知识的人工智能程序可以轻松地以 100 比 0 的成绩击败去年 3 月战胜了李世乭
复制链接

扫一扫