ActorCritic学习笔记

最新推荐文章于 2024-08-06 17:32:05 发布

BravaCristina

最新推荐文章于 2024-08-06 17:32:05 发布

阅读量872

点赞数

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/BravaCristina/article/details/78511264

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Part1 策略梯度算法

在学习AC之前必须了解一下Policy Gradients算法（PG)。PG是建立在Policy Network之上的，这是一个神经网络，输入时状态，输出直接是动作（Q值）。
$a = \pi(s,\theta)$
也可以输出概率，这样输出更通用: $a = \pi(a|s,\theta)$
更新网络参数的依据就是最大化reward函数的累加：
$L(\theta) = \mathbb E(r_1+\gamma r_2 + \gamma^2 r_3 + ...|\pi(,\theta))$
选取动作的概率和最终的reward可以用损失函数表示：
$L(\theta) = \sum log\pi(a|s,\theta)f(s,a)$
其中： $log\pi(a|s,\theta)$ 是PN输出的选取动作的概率 $f(s,a)$ 是评价指标
那么策略梯度就可以计算为： $\nabla_{\theta} L(\theta)$ 参数 $\theta$ 也就可以按照这个策略梯度更新
Gaussian Policy则主要用于连续的动作空间，其均值就是状态特征的线性结合
问题的关键是：
评价指标如何确定？

Actor 的前生是 Policy Gradients , 可以在连续动作中选取合适的动作,Critic 的前生是以值为基础的学习法(Q-learning 、其他的算法) , 能进行单步更新, 而传统的 Policy Gradients 则是回合更新, 这降低了学习效率.
Actor-Critic 就是在求解策略的同时用值函数进行辅助，用估计的值函数替代采样的reward，提高样本利用率。

从David Silver摘出来的内容：
基于当前的π产生St、At、Rt+1、St+1
然后基于TD(0) method【V (St+1) = V (St) + α[Rt+1 + γV(St+1) - V(St)] 】进行estimation。

value-function approximation v(*;θ)
linear model: the approximate function, v(*;θ), is a linear function of the weight vector, θ. Corresponding to every state s, there is a real-valued vector of features φ(s) = (φ1(s); φ2(s); …; φn(s)), with the same number of components as θ.
线性模型里任何一种方法都可以保证自动收敛于一个局部最优解或者全局最优解。
比如：the gradient Monte Carlo algorithm、the semi-gradient TD(0) algorithm。