AlphaGo Zero 与深度强化学习(一) 概述

最新推荐文章于 2024-08-05 16:30:51 发布

万能的仓鼠

最新推荐文章于 2024-08-05 16:30:51 发布

阅读量5.3k

点赞数

分类专栏：强化学习 paper 文章标签：深度学习强化学习神经网络 alpha-go

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/okingjerryo/article/details/78814770

版权

本文介绍了AlphaGo Zero如何通过深度强化学习，在没有人类数据的情况下，快速超越前代AlphaGo。它仅使用简单的输入特征和神经网络，实现了从零开始的自我学习和改进。尽管训练过程中能源消耗较高，但其优势在于完全自主学习，不受人类知识限制，并展现出超越人类的认知能力。

摘要由CSDN通过智能技术生成

AlphaGo Zero 与深度强化学习(一) 概述

原文: Mastering the Game of Go without Human Knowledge(2017)

概览

做的什么

完全基于强化学习，使AlphaGoZero(下文简称 zero)通过自己的神经网络在很短的时间打败了前 AlphaGo。
完全无人类数据干预。
使用强化深度学习
输入特征简单

提到的的技术

强化学习
深度学习
Monte-Carlo Tree Search(MCTS)决策树
新的强化学习方法-将lookahead search直接放到training里
Q 函数与 $f_\theta$ 函数以及针对棋类的 Loss
采用 ResBlock 将强化学习用深度网络的方式表示出

优势

完全无人类数据干预，从0实现纯自主学习。
可以超出人认知的领域。不依赖于经验
独自由强化学习训练，由瞎玩开始。不用人类的先验数据，本例为棋谱。
输入特征简单，只需要单个nn（前 Alpha 网络需要两个深度网络）
相比于复杂的MCTS决策树，只需要简单的树便可实现。决策轮回中不需要反向传播

不足

能源消耗：4TPU

老式机器学习方法

训练数据不可靠
训练出的模型是“训练数据强加的”性格

强化学习

属于监督学习的扩展
不局限于先验性

前身AlphaGo Fan, Lee 两个深度网络

训练时

规则网

输出更多可能
监督学习学专家的走法
policy-gradient reinforcement learning

一个决策网

优化落子位置
预测如何能赢，通过规则网自我对抗(自己和自己下着玩)

训练后

使用 Monte-Carlo Tree Search(MCTS)决策树下一步探索
MCTS wiki
使用已训练好的规则网络找到最高胜率的分支
使用已训练的决策网优化分支

AlphaZero 中的强化学习

前景： $f_\theta$ $\theta$ :参数 ;s:位置；P 当前点的先验概率。

基本状态

输入：位置 s
输出：
- 可能性 p：当前位置落子的可能性
- 价值 v:当前用户在该位置落子后产生的价值，即对最后结果的影响

网络组成

带有BN与non-liner的残差单元与卷积层
第一层为普通的卷积层后面为20层的ResNet残差块

训练方式

在棋盘的每个位置 s：

先在

最低0.47元/天解锁文章

万能的仓鼠

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。