谈起AlphaGo,来看其中的强化学习知识点

Catherine_he_ye

已于 2022-11-14 10:36:40 修改

阅读量498

点赞数

分类专栏： RL 文章标签：深度学习人工智能

于 2022-11-13 21:57:45 首次发布

本文链接：https://blog.csdn.net/Catherine_he_ye/article/details/127836792

版权

RL 专栏收录该内容

7 篇文章 3 订阅

订阅专栏

谈起AlphaGo来看其中的强化学习知识点

王树森老师的深度强化学习课程笔记

1. Training and Execution

1.1. training in 3 steps:

首先，利用 behavior cloning 模仿学习(是一种监督学习)初始化策略网络
接着使用强化学习的 policy gradient 策略梯度，进一步训练策略网络
最后，用训练好的策略网络来训练价值网络(Not AC算法)

1.2. execution (actually play Go games)

使用蒙特卡洛树搜索MCTS

2. Policy Network

state: $19 * 19 * 17$ tensor (AlphaGo Zero中), $19 * 19 * (8 + 8)$ 表示当前以及前七次落子时的棋局状态，每一次落子时的棋局都得用2个tensor表示分别用于黑子与白子，最后的 $19 * 19 * 1$ tensor用于表示当前轮到黑子方还是白子方落子(只有全0或全1两种取值)。

2.1. initialize policy network by behavior cloning

behavior cloning: let the policy network imitate human players.
P.S., AlphaGo Zero中没有用behavior cloning.

2.1.1 Behavior Cloning

它不是强化学习！
它是一种模仿学习。
在AlphaGo应用中可看做一种多分类

2.1.2 After Behavior Cloning …

如果 $s_t$ 出现在海量training data中，AI会用专家的策略来落子；
而如果 $a_t$ 并未出现在训练数据中，那么AI很有可能做出的行为连业余玩家都不会那么落子，从而之后的棋局状态会更大可能并未出现在原有的训练数据中，错误会不断累加，策略网络最终可能输掉比赛。

	Behavior cloning+RL beats behavior cloning with 80% chance

2.2. train policy network using policy gradient

AlphaGo中有两个策略网络用来做博弈，名叫Player和Opponent。
AlphaGo Zero 用MCTS来训练(见最后)。 policy network in AlphaGo reward definition in AlphaGo play Go using the policy network