强化学习笔记_4_Actor-Critic Methods_那篇论文提出actor-critic-CSDN博客

本文链接：https://blog.csdn.net/k_kun/article/details/128506123

$V(s;\theta,w)=\sum_a\pi(a|s;\theta)·q(s,a;w)$

模型训练：更新参数 $\theta,w$
- 更新 $\pi(a|s;\theta)$ 以提升 $V(s;\theta,w)$
- 更新 $q (s, a; w)$ 以使其打分更加精确
算法步骤：
- 观测得到状态 $s_t$
- 以概率 $\pi(·|s_t;\theta_t)$ 随机采样得到动作 $a_t$
- 通过动作 $a_t$ ，得到新的状态 $s_{t+1}$ 和回报reward $r_t$
- 通过TD-Learning更新参数 $w$
- 通过Policy Gradient更新参数 $\theta$
Update value network $q$ using TD
- compute $q(s_t,a_t;w_t)$ and $q(s_{t+1},a_{t+1};w_t)$
- TD target: $y_t=r_t+\gamma·q(s_{t+1},a_{t+1};w_t)$
- Loss: $L(w)=\frac{1}{2}[q(s_t,a_t;w_t)-y_t]^2$
- Gradient descent: $w_{t+1}=w_t-\alpha ·\frac{\partial L(w)}{\partial w}|_{w=w_t}$
Update policy network $\pi$ using policy gradient
- Let $g(a,\theta)=\frac{\partial \log \pi(a|s;\theta)}{\partial \theta}·q(s_t,a;w)$
- $\frac{\partial V(s;\theta,w_t)}{\partial \theta}=E_A[g(A,\theta)]$
- 以概率 $\pi(·|s_t;\theta_t)$ 随机抽样得到动作 $a$ ，计算 $g(a,\theta)$ 作为 $\frac{\partial V(s;\theta,w_t)}{\partial \theta}$ 的无偏估计（unbiased）
- Stochastic gradient ascent: $\theta_{t+1}=\theta_t+\beta·g(a,\theta_t)$