Mastering the game of Go with deepneural networks and tree search

杨家闺女

已于 2022-02-25 16:35:50 修改

阅读量551

点赞数

文章标签：人工智能

于 2022-02-25 15:34:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_55877221/article/details/123133621

版权

一、Behavior Cloning

模仿学习，模仿人的动作~

缺陷：如果状态St没有出现在训练数据中，那么无法给出下一个动作是什么，at就不会太好，并且会出现错误累加（棋盘局势悦来越离谱）

二、Reinforcement learning of policy network

策略网络强化学习

1.定义奖励：如果agent赢，从第一步到最后一步所有的回报都为+1

如果agent输，聪第一步到最后一步所有的回报都为-1

直观上说：win = 所有的动作都是好棋 lose = 所有动作都是臭棋

2.策略梯度计算：

通过策略梯度的计算，更新参数，强化策略网络

3.蒙特卡洛树搜索：

蒙特卡洛树搜索分为四步，selection、expansion、evaluation、backup，一直重复这四个步骤，每次都选择价值更优的位置去走。

Selection。从根节点状态出发，迭代地使用UCB1算法选择最优策略，直到碰到一个叶子节点。叶子节点是搜索树中存在至少一个子节点从未被访问过的状态节点。
Expansion。对叶子节点进行扩展。选择其一个从未访问过的子节点加入当前的搜索树。
Simulation。从2中的新节点出发，进行Monto Carlo模拟，直到博弈结束。
Back-propagation。更新博弈树中所有节点的状态。进入下一轮的选择和模拟

三、AlphaGo VS AlphaGo Zero

AlphaGo Zero不进行模仿学习，也就是不模仿人类的下棋经验作为初始网络，而是直接用蒙特卡洛搜索树进行训练，并且博弈效果远高于AlphaGo，事实证明，人类的经验对于AlphaGo是有害的！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。