AlphaGo原理浅析

最新推荐文章于 2019-01-30 10:47:49 发布

研究僧m0_37600149

最新推荐文章于 2019-01-30 10:47:49 发布

阅读量914

点赞数

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/m0_37600149/article/details/78541797

版权

强化学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

AlphaGo

论文：
　　AlphaGo:《Mastering the game of Go with deep neural networks and tree search》

核心部件：

　　- 监督学习的策略网络(SL policy network)
　　　　13layers CNN network
　　　　输入：当前state
　　　　输出：所有可能action的概率分布
　　　　更新策略：
　　　　　　

Δ σ \propto \partial log p σ ( a | s ) \partial σ

$\Delta\sigma\propto\frac{\partial\log p_\sigma(a|s)}{\partial \sigma}$
　　- 速度快但准确率不如SL的策略网络(fast rollout policy network)
　　linear softmax of small pattern features with weights

π $\pi$
　　　　
　　- 强化学习的策略网络(RL policy)
　　网络结构与SL相同，所有参数初始化为与SL参数相同,即在SL的基础上利用policy gradient reinforcement learning再进行训练。
　　　　

Δ ρ \propto \partial log p ρ ( a t | s t ) \partial ρ z t

$\Delta\rho\propto\frac{\partial\log p_\rho(a_t|s_t)}{\partial\rho}z_t$
　　其中，

rewardzt={01t is non-terminal time stept is terminal time step $reward z_t= \begin{cases} 0& \text{t is non-terminal time step}\\ 1& \text{t is terminal time step} \end{cases}$
　　- 价值评估网络(value network)
　　评估在状态s下采取策略p
　　

v p (s) = E [z t | s t = s, a t . . . T \sim p]

$v^p(s)=E[z_t|s_t=s,a_{t...T}\sim p]$
　　理想状态下，我们可以有一个最优的value function

v∗(s) $v^*(s)$ ,但实际上，我们利用RL policy network估计

vpρ $v^{p_\rho}$ 来近似

v∗(s) $v^*(s)$ .value network的目标就是建立以

θ $\theta$ 为参数的网络，输出

vθ(s) $v_\theta(s)$ ,

vθ(s)≈vpρ≈v∗(s) $v_\theta(s)\approx v^{p_\rho} \approx v^*(s)$ .
　　网络目标是最小化估计值

vθ(s) $v_\theta(s)$ 与对应输出z之间的均方误差
　　

Δ θ \propto \partial v θ ( s ) \partial θ (z - v θ (s))

$\Delta\theta \propto \frac {\partial v_\theta(s)}{\partial\theta}(z-v_\theta(s))$
　　

骨架：

　　MCTS(Monte Carlo Tree Search)
　　 Monte Carlo Tree Search in AlphaGo
　　Selection:
　　每条边 $(s,a)$ 存储了action value $Q(s, a)$ ,访问次数 $N(s, a)$ ,先验概率 $P(s,a)$ .在每次仿真中，从根节点开始，t时刻位于状态 $s_t$ 时，根据