![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度强化学习+AlphaGo Zero
文章平均质量分 87
马念同学
这个作者很懒,什么都没留下…
展开
-
《Mastering the game of Go without human knowledge》中用到的“蒙特卡洛树搜索算法”
(本文参考——视频)蒙特卡洛树搜索拓展自蒙特卡洛规划,可以分为以下三个部分:单一状态的蒙特卡洛规划:多臂赌博机(multi-armed bandits)、上限置信区间策略(Upper Confidence Bound Strategies-UCB )、蒙特卡洛树搜索(MCTS)。k种行动(即k个摇臂),每次摇动一个赌博机问题下,每次以随机采样的形式采取一种行动(拉动一个赌博机的臂膀,得到R(s,k)的回报)。问:前几次拉动赌博机的臂膀下,下次如何拉动才能获得最大回报?原创 2024-04-10 10:18:15 · 860 阅读 · 1 评论 -
《Mastering the game of Go without human knowledge》阅读摘录总结
特点 ①从随机游戏开始,未使用监督和人类数据,进行自我游戏强化学习训练 ②只以棋盘上黑白宝石为特征 ③单一神经网络,拒绝分开的策略和价值网络。④使用简单的树搜索,仅依赖于上述单一的神经网络评估位置和采样移动,拒绝执行蒙特卡洛步骤。介绍了AlphaGo程序及其组成,包括:①一个输出移动概率的策略网络(监督学习训练,预测玩家举动,强化学习改进) ②输出位置评估的价值网络(预测策略网络对自己博弈的赢家) ③结合蒙特卡洛树搜索(提供前瞻搜索),结合策略网络缩小到高概率移动,并使用价值网络评估树的位置。原创 2024-04-03 12:05:10 · 689 阅读 · 1 评论 -
AlphaGo Zero +深度强化学习:初步了解
AlphaGo Zero是谷歌下属公司Deepmind的新版人工智能程序,是计算机强化学习的一个深度里程碑。在围棋游戏中能够达到超越人类专家水平的表现。与之前的版本不同,AlphaGo Zero的训练完全基于自我对弈,无需使用人类对局的数据。原创 2024-04-02 19:47:53 · 974 阅读 · 1 评论