强化学习入门7—Actor-Critic

最新推荐文章于 2024-03-22 10:45:08 发布

小菜羊~

最新推荐文章于 2024-03-22 10:45:08 发布

阅读量828

点赞数

分类专栏：强化学习文章标签：强化学习人工智能

本文链接：https://blog.csdn.net/sherlocksy/article/details/119490638

版权

本文介绍了强化学习中的Actor-Critic算法，它结合策略梯度和时序差分方法。Actor负责选取动作，Critic则对其进行评估并反馈，指导Actor优化策略。在训练过程中，两者同步更新，通过策略梯度和TD方法改进策略和价值函数。尽管存在参数更新的相关性问题，但其效率优势使其成为强化学习的重要算法。

摘要由CSDN通过智能技术生成

文章目录

Actor-Critic

本文是强化学习入门系列的第七篇，介绍一种结合了策略梯度和时序差分的算法——Actor-Critic即演员评论家算法。

Actor-Critic

介绍

Actor-Critic即演员-评论家算法。分为两部分，Actor基于概率选动作（不用Epsilon-greedy了），Critic基于Actor的动作进行打分，Actor再根据Critic的得分修改选择动作的概率。

我们知道状态价值函数如下：
$V_{\pi}(s,a)=\sum_a\pi(a|s)Q_{\pi}(s,a)$

策略函数 $\pi$ 以及动作价值函数 $Q_{\pi}$ 可以分别用两个神经网络来表示，也是分别对应Actor与Critic。

对于Actor，用神经网络（即策略网络） $\pi(a|s;\theta)$ 来近似策略函数 $\pi(a|s)$ ， $\theta$ 是决定策略的参数。Actor的目标是选出最优的策略，使得状态价值函数最大。更新方法采用Policy-Gradient。然而在更新过程中 $Q_{\pi}$ 的值Actor是不知道的，所以需要Critic来更新这一值。

对于Critic，用神经网络（即价值网络） $q(s,a;\omega)$ 来近似价值函数 $Q_{\theta}(s,a)$ ， $\omega$ 是神经网络的参数。Critic的目标对Actor选出的动作打分，然后作为Actor的监督信号，指导Actor更新参数。更新方法采用时序差分（TD）方法。其实本质上就是在更新q-function。