强化学习 —— （4）A3C

最新推荐文章于 2024-08-11 18:21:52 发布

EntropyPlus

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量318

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/u012759262/article/details/105547164

版权

强化学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1. Policy Gradient的不足

在Policy Gradient中提到，Policy Gradient 算法在计算Reward时需要对数据进行采样：
在这里插入图片描述
在采样的过程中，有很大的随机性，不太稳定。那么，能不能直接通过估计 $G_t^n$ 的期望值，使用期望值来代替sample的值，这样可以保证稳定性。

2. 改进方法

Actor-Critic 的 Actor 的前生是 Policy Gradients , 这能让它毫不费力地在连续动作中选取合适的动作, 而 Q-learning 做这件事会很吃力。那为什么不直接用 Policy Gradients 呢? 因为 Actor Critic 中的 Critic 的前生是 Q-learning 或者其他的以值为基础的学习法 , 能进行单步更新, 而传统的 Policy Gradients 则是回合更新, 这降低了学习效率。所以就想到把两者结合起来变成Actor-Critic。

要解决这个问题，需要引入value base的方法，也就是Q learning，其中Q learning有两种方法：

在这里插入图片描述
根据Q的定义，可以将 $\sum_{t'=t}^{T_n}y^{t'-t}r_{t'}^n$ 替换成 $Q^{\pi_\theta}(s^n_t,a^n_t)$ ，然后baseline一般指定为 $V^{\pi_\theta}(s_t^n)$

但是这样就有个问题：需要估计两个network，这样就有2倍的风险。

按照定义：
$Q^{\pi}(s_t^n,a_t^n) = E[r_{t}+V^{\pi}(s_{t+1})|s_t=s, a_t=\pi'(s_t)]$
这里取期望的原因是，跳转到什么样的状态，得到什么样的reward本来就有随机性，所以要取期望来减少随机性
在这里插入图片描述
这也是可以近似的认为下式的原因，虽然也有一定的随机性，但是随机性比原来要小。

所以，就有：

所以，整个流程为：
首先用 $\pi$ 与环境做互动，收集原始的资料，收集到的资料没有去估计policy，而是去估计value function（TD或MC方法）然后套用优化公式去更新 $\pi$ 。