AlphaGo Zero 与深度强化学习(一) 概述

本文介绍了AlphaGo Zero如何通过深度强化学习,在没有人类数据的情况下,快速超越前代AlphaGo。它仅使用简单的输入特征和神经网络,实现了从零开始的自我学习和改进。尽管训练过程中能源消耗较高,但其优势在于完全自主学习,不受人类知识限制,并展现出超越人类的认知能力。
摘要由CSDN通过智能技术生成

AlphaGo Zero 与深度强化学习(一) 概述

原文: Mastering the Game of Go without Human Knowledge(2017)

概览

做的什么

  • 完全基于强化学习,使AlphaGoZero(下文简称 zero)通过自己的神经网络在很短的时间打败了前 AlphaGo。
  • 完全无人类数据干预。
  • 使用强化深度学习
  • 输入特征简单

提到的的技术

  • 强化学习
  • 深度学习
  • Monte-Carlo Tree Search(MCTS)决策树
  • 新的强化学习方法-将lookahead search直接放到training
  • Q 函数与 fθ 函数以及针对棋类的 Loss
  • 采用 ResBlock 将强化学习用深度网络的方式表示出

优势

  • 完全无人类数据干预,从0实现纯自主学习。
  • 可以超出人认知的领域。不依赖于经验
  • 独自由强化学习训练,由瞎玩开始。不用人类的先验数据,本例为棋谱。
  • 输入特征简单,只需要单个nn(前 Alpha 网络需要两个深度网络)
  • 相比于复杂的MCTS决策树,只需要简单的树便可实现。决策轮回中不需要反向传播

不足

  • 能源消耗:4TPU

老式机器学习方法

  • 训练数据不可靠
  • 训练出的模型是“训练数据强加的”性格

强化学习

  • 属于监督学习的扩展
  • 不局限于先验性

前身AlphaGo Fan, Lee 两个深度网络

训练时

规则网

  • 输出更多可能
  • 监督学习学专家的走法
  • policy-gradient reinforcement learning

一个决策网

  • 优化落子位置
  • 预测如何能赢,通过规则网自我对抗(自己和自己下着玩)

训练后

  • 使用 Monte-Carlo Tree Search(MCTS)决策树 下一步探索
    MCTS wiki

  • 使用已训练好的规则网络找到最高胜率的分支

  • 使用已训练的决策网优化分支

AlphaZero 中的强化学习

前景: fθ θ :参数 ;s:位置;P 当前点的先验概率。

基本状态

  • 输入:位置 s
  • 输出:
    • 可能性 p:当前位置落子的可能性
    • 价值 v:当前用户在该位置落子后产生的价值,即对最后结果的影响

网络组成

  • 带有BNnon-liner的残差单元与卷积层
  • 第一层为普通的卷积层后面为20层的ResNet残差块

训练方式


在棋盘的每个位置 s:

  1. 先在
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值