李宏毅机器学习系列-强化学习之Actor-Critic

最新推荐文章于 2024-08-06 17:32:05 发布

王伟王胖胖

最新推荐文章于 2024-08-06 17:32:05 发布

阅读量1.1k

点赞数 1

分类专栏：强化学习李宏毅机器学习深度学习文章标签：李宏毅机器学习系列-强化学习之Actor-Critic Actor-Critic A3C 深度学习强化学习

本文链接：https://blog.csdn.net/wangwei19871103/article/details/100540850

版权

深度学习同时被 3 个专栏收录

75 篇文章 13 订阅

订阅专栏

李宏毅机器学习

36 篇文章 20 订阅

订阅专栏

强化学习

15 篇文章 2 订阅

订阅专栏

李宏毅机器学习系列-强化学习之Actor-Critic

回顾策略梯度
回顾Q-Learning
Actor-Critic
- Actor-Critic小贴士
- Asynchronous Advantage Actor-Critic (A3C)
Pathwise Derivative Policy Gradient
总结

回顾策略梯度

回顾下我们前面讲的基于策略的梯度是怎么样的，中间会有一项是优势函数，从看到s时采取a的时刻开始到游戏结束的累计奖励 $G_t ^n$ ，但是因为游戏的奖励可能是随机的，所以这个值通常是不稳定的，所以可以看成一个随机变量：
在这里插入图片描述
既然是随机变量，我们又不能采样到足够的样本，如果采样到不好的结果，那训练的效果也会不好，那我们只能想办法去估计他的期望了，那怎么拿这个期望值去代替采样的值呢，就要用到基于价值的方法：
在这里插入图片描述

回顾Q-Learning

我们两种价值函数，一种是 $V^\pi(s)$ ，表示在某个s状态下，用actor $\pi$ 去跟环境做互动，直到游戏结束的累计奖励的期望。另一种是 $Q^\pi(s，a)$ ，表示在某个s状态下，强制采取行为a之后，用actor $\pi$ 去跟环境做互动，一直到游戏结束的累计奖励的期望。做的时候可以用TD或者MC，TD比较稳，MC比较精确：
在这里插入图片描述

Actor-Critic

其实我们的G的期望，就是Q函数，我们的b也就是基线，可以用 $V^\pi(s_t ^n)$ ，其实这个就是均值，这样的话，红色的这两项我们就可以替换了：
在这里插入图片描述
然后我们就需要估计这个了，但是这个是两个网络，就会出现估计不准的风险，而且是两倍的，所以我们能不能改成一个呢：

我们的Q可以写成这样，也就是Q的定义，因为奖励可能是随机的，所以取期望：
在这里插入图片描述
然后我们可以把期望给去掉，为什么要去掉呢，貌似是这样做效果比较好，或许是单个奖励的随机性也不影响累计的奖励：

然后代入得：

这样只要估计一个网络就行了，但是引入了奖励的随机变量，但是这个奖励的方差不会很大，比以前的累计的奖励的方差要小。

所以这个训练的过程就变这样了，只是把刚才的式子代进去：
在这里插入图片描述

Actor-Critic小贴士

我们要训练两个网络，一个是actor采取动作的，一个是critic，评判V的，我们可以共享前面几层的参数，因为前面几层基本都是游戏画面，用CNN提取特征的操作可以是一样的。另外，我们要给actor的输出加一个限制，希望他的熵大一点，这样输出行为分布可以平均点，也就是每个行为都可能被采用，也就是探索机制：
在这里插入图片描述

Asynchronous Advantage Actor-Critic (A3C)

其实就是分布式并行训练的思想，因为单个可能训练比较慢，看过火影的都知道，鸣人可以用影分身来进行加速训练：
在这里插入图片描述
具体就是这么个结构，开始每台机器可以用同一个参数，然后每台机器都采集样本，计算梯度，然后去更新全局的参数，因为是并行的，所以只要把梯度上传就行，不用管现在的参数是什么，只管上传梯度即可：
在这里插入图片描述

Pathwise Derivative Policy Gradient

这个新方法可以解决连续行为的问题，而且他不仅可以知道行为好不好，还能告诉你怎么样的是好的行为，我们可以用训练一个actor来接maxQ的问题，就好像是GAN里面的判别器，用来判别好不好：
在这里插入图片描述
我们实际做的时候是训练一个actor网路和Q网络连接起来，我们希望actor生成的a输入Q，使得Q越大越好，训练的时候我们会先固定住Q，然后训练actor，跟GAN训练的步骤类似：

他的算法过程图就是这样，在Q-Learning里面的技巧都可以用上：
在这里插入图片描述
然后看看具体的算法细节，这个是我们Q-Learning的算法：

我们经过改良后的：

主要是四点：
1.本来我们采取的a是基于Q的，现在因为有了actor $\pi$ ，所以改成基于 $\pi$ 。
2.本来我们是max的问题，改成 $\pi$ 来解决，但是我们在训练 $\pi$ 的时候，也需要有固定的目标网络 $\pi'$ ，所以也就是可以用 $\pi'$ 生成a来解决，所以改了。
3.我们的目标是让 $\pi$ 生成的a使得Q最大。
4.我们也要训练多步之后把目标的网络的参数改成训练的。