Reinforcement Learning（五）：AlphaGo实例

最新推荐文章于 2022-12-09 21:54:29 发布

坚硬果壳_

最新推荐文章于 2022-12-09 21:54:29 发布

阅读量380

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38156104/article/details/107894762

版权

深度学习专栏收录该内容

56 篇文章

订阅专栏

本文深入探讨了AlphaGoZero的训练与执行过程，包括使用行为克隆初始化策略网络，通过策略梯度训练策略网络，以及利用蒙特卡罗树搜索进行强化学习。详细介绍了MCTS的四个步骤，并解释了N(a)如何反映动作的好坏。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Go Game

High-Level Ideas

Training and Execution

Policy Network

State (of AlphaGo Zero)

Policy Network

AlphaGo Zero

AlphaGo

Initialize Policy Network by Behavior Cloning

需要注意的是：

具体步骤：

在behavior cloning之后，网络在下棋过程中会出现两种情况：

Train Policy Network Using Policy Gradient

Reinforcement learning of policy network

Policy Gradient

具体训练步骤：

Play Go using the policy network

Train the Value Network

Policy Value Networks (AlphaGo Zero)

Train the value network

Monte Carlo Tree Search

主要思想：”高瞻远瞩“

蒙特卡罗树搜索(MCTS)的每次模拟都有4个步骤：

具体的：

个人理解：在多次搜索之后，第一项占比很大，基本上分数就由Q(a)决定了，那么Q（a）大的，就很容易再次被搜索到，因此N(a)就大。因此N（a）是可以反应动作好坏的。

MCTS: Summary

Summary

Training and Execution

AlphaGo Zero v.s. AlphaGo

从而引出一个问题：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。