强化学习4-actor-critic 方法

sslala

已于 2023-02-22 10:05:31 修改

阅读量272

点赞数

分类专栏：强化学习文章标签：机器学习深度学习神经网络

于 2023-02-22 10:04:46 首次发布

本文链接：https://blog.csdn.net/ss49344/article/details/129156683

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Actor-Critic方法是一种强化学习算法，它结合了策略网络和价值网络。状态值函数由这两个网络近似表示，策略网络选择动作，而价值网络评估动作的效果。在训练过程中，通过固定一个网络更新另一个，交替优化策略和价值函数。具体步骤包括使用TD误差更新价值网络参数，然后根据策略梯度更新策略网络。

摘要由CSDN通过智能技术生成

Actor-Critic Methods

1. 状态值函数的近似

现在我们直到状态值函数：
$V_{\pi}(s_t) = \sum_a\pi (a|s_t)\cdot Q_\pi (s_t, a).$

等式右边有两个函数，一个是策略函数，一个是价值函数，策略用来给出动作的概率，价值用来给出动作的回报，遍历所有动作，即得到该状态下的状态值函数。

我们现在的方案是将策略函数和价值函数用两个神经网络来代替：

$V_{\pi}(s_t) = \sum_a\pi (a|s_t)\cdot Q_\pi (s_t, a) \approx \sum_a\pi (a|s_t; \pmb{\theta})\cdot Q_\pi (s_t, a;\pmb{w})$

其中 $\pmb{\theta}$ , $\pmb{w}$ 表示两个神经网络的参数（用来训练）。

策略网络控制动作，而价值网络评价动作的好坏。

2. 训练网路

现在我们得到了一个状态值函数的表达式：
$V(s;\pmb{\theta, w}) = \sum_a\pi(a|s;\pmb{\theta}) \cdot q(s,a;\pmb{w})$
我们如何来通过上式更新参数 $θ,w \pmb{\theta, w}$ 呢？ ——控制变量法

当我们固定策略 $\pmb{\theta}$ 时，调整价值网络 $\pmb{w}$ 来使得critic评估尽量接近真实值
当我们固定价值 $\pmb{w}$ 时，调整策略 $\pmb{\theta}$ ，来最大化回报。

3. 所以伪代码为

观测当下状态 $s_t$
根据现有策略随机抽样 $a_t$
执行 $a_t$ 并观测下一个状态 $s_{t+1}$ 和立即回报 $r_t$
使用时间差分法更新价值网络参数 $\pmb{w}$
使用梯度上升更新策略网络参数 $\pmb{\theta}$

步骤4详细：

先根据现有策略随机抽取下一次动作 $a_{t+1}$ ,其实并不执行，为了后续计算使用
使用现有的评价网络得到： $q_t=q(s_t, a_t; \pmb{w_t})$ 和 $q_{t+1} = q(s_{t+1}, a_{t+1}; \pmb{w_t})$
计算TD error: $\delta_t = q_t - (r_t + \gamma \cdot q_{t+1})$
计算神经网络梯度: $d_{w, t}= \frac{\delta q(s_t, a_t; \pmb{w})}{\delta \pmb{w}} |_{\pmb{w=w_t}}$
更新价值神经网络参数： $\pmb{w_{t+1} }= \pmb{w_t} - \alpha \cdot \delta_t \cdot \pmb{d_{w, t}}$

步骤5详细：

计算策略网络梯度： $\pmb{d_{\theta,t}} = \frac{\delta log\pi(a_t|s_t,\pmb{\theta)}}{\delta \theta} |_{\pmb{\theta = \theta_t}}$
更新策略网络： $\pmb{\theta_{t+1}} = \pmb{\theta_t}+\beta\cdot\pmb{\delta_t \cdot d_{\theta, t}}$