连续动作的强化学习算法——SAC

最新推荐文章于 2024-05-17 02:08:00 发布

小王爱学习1234

最新推荐文章于 2024-05-17 02:08:00 发布

阅读量5.1k

点赞数 5

分类专栏：强化学习基础文章标签：算法机器学习深度学习

本文链接：https://blog.csdn.net/m0_37247632/article/details/124689553

版权

强化学习基础专栏收录该内容

5 篇文章 4 订阅

订阅专栏

Soft Actor-Critic

目前来说，关于连续动作的强化学习算法，经常使用到的就是PPO、DDPG和SAC以及在此基础上的改进算法，这里主要说一下SAC算法。

介绍

首先SAC算法是基于Off-Policy的，因此会用到Replay Buffer，使用过去的样本经验进行学习，这会使得算法的稳定性和收敛性有一定的困难，特别是在连续的状态和动作空间下。然后是基于Actor-Critic的，同时基于值和策略进行评估，可以实现单步更新。SAC则是在此基础上，要求最大化期望的同时最大化策略分布的熵，以确保策略足够的随机。

算法

熵

和DDPG不同的是，SAC使用随机的策略做连续控制，核心就是熵的正则化，在最大化预期回报和最大化熵之间找到了一个临界值。熵是表示混乱程度的变量，自然情况下会趋向于混乱，就是一个熵增的过程。
在这我们可以用 $H (X)$ 来表示信息熵来表示数据信息量的大小，其中 $X$ 表示一个随机变量所有可能取值的自信息 $I (x)$ 的加权和， $P (x)$ 表示事件 $x$ 发生的概率：
$\int_XI(x)dx = -\int_Xlog(P(x))P(x)dx$

KL散度（相对熵）：表示两个概率分布之间差异的非对称性度量，相对熵等价于两个概率分布的信息熵。
$D_{KL}(p∥q)=\displaystyle\sum_{i=1}^{n} [p(x_i)logp(x_i )−p(x_i)logq(x_i)]$

随机策略

A-C算法中，利用梯度上升来实现期望的最大化，如果动作 $a$ 是 $n$ 维的，那么策略 $\pi$ 使用 $n$ 个高斯分布 $N(\mu, \sigma)$ 连乘的方式来近似$\pi& ：
$\pi(a|s) = \displaystyle\prod_{i = 1}^n\frac{1}{\sqrt{2\pi\sigma_i}}e^{-\frac{(a_i-\mu_i)^2}{2\sigma_i^2}}$
公式中的 $\sigma$ 和 $\mu$ 可以用神经网络来近似逼近。
然后根据得到的 $n$ 个高斯分布来采样得到行 $a$ ，将其代入上面的 $\pi$ , 便可以得到 $\frac{\partial \log ^{\pi(a|s;\theta)}}{\partial^\theta}$ , 现在还剩下 $Q_\pi(s, a)$ 需要求。这个我们使用actor-critic中的critic对应的价值网络 $q (s, q; w)$ 来近似,然后用时间差分算法来最小化 $q_{target}$ 和 $q$ 的差距来优化价值网络的参数，这就是整个的训练过程。

熵正则化

SAC中通过实现熵正则化，可以进一步提高探索能力，得到更多的状态空间，在增大熵的同时，保证期望的增加，通过修改了普通策略学习的目标函数，可以在每一步的回报中增加策略的熵，目标如下：
$J(\theta)=\mathbb{E}[V_\pi(S)+\alpha H(\pi(.|S))]$
策略梯度近似如下：
$\frac {\partial^{J(\theta)}}{\partial^\theta}=\mathbb{E}[\frac {\partial^log^{\pi(A|s;\theta)}}{\partial^\theta} · Q_\pi(s, A)]\approx \frac{Q_\pi(s, a)-\alpha ·log^{\pi(a|s; \theta ) - \alpha}}{\partial~\theta}log^{\pi(a|s; \theta )}$

SAC网络

在SAC中使用到了两个Q网络，并通过取最小的Q值来避免最大化带来的高估，求期望是对下一个状态（来自于replay buffer）和下一个动作（来自于当前策略而不是replay buffer）求期望，（这里的动作需要强调指出，不是从replay buffer采样得到的，而是基于当前策略计算得到的新的action），因此可以使用样本进行近似估算Q值，训练过程如下：
通过策略网络采样动作进行游戏，记录transition(state,action,reward,next_state)到 replay buffer中
从replay buffer获取训练数据，计算策略网络和两个Q网络，通过时间差分算法来更新Q网络，使用Q值中较小的那个来更新V网络，再得到的V值后再使用梯度上升来更新策略网络，最后再用使用梯度下降算法Polyak平均更新目标V网络。

小王爱学习1234

关注

5
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
连续动作的强化学习算法——SAC

Soft Actor-Critic 目前来说，关于连续动作的强化学习算法，经常使用到的就是PPO、DDPG和SAC以及在此基础上的改进算法，这里主要说一下SAC算法。介绍首先SAC算法是基于Off-Policy的，因此会用到Replay Buffer，使用过去的样本经验进行学习，这会使得算法的稳定性和收敛性有一定的困难，特别是在连续的状态和动作空间下。然后是基于Actor-Critic的，同时基于值和策略进行评估，可以实现单步更新。SAC则是在此基础上，要求最大化期望的同时最大化策略分布的熵，以
复制链接

扫一扫

专栏目录