Soft Actor Critic算法论文公式详解

白水baishui

已于 2022-05-09 01:08:25 修改

阅读量6.1k

点赞数 32

分类专栏： # 强化学习文章标签：强化学习 sac 论文 rl 公式

于 2021-11-29 13:22:46 首次发布

本文链接：https://blog.csdn.net/baishuiniyaonulia/article/details/121538413

版权

强化学习专栏收录该内容

14 篇文章

订阅专栏

SAC强化学习算法是伯克利大学团队2018年在ICML(International Conference on Machine Learning)上发表的论文，本篇博客来总结一下论文里的公式及其涵义。

论文地址：Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

文章目录

1. 符号说明

马尔科夫决策过程： $(\mathcal{S},\mathcal{A},p,r)$ 其中， $\mathcal{S}$ 为状态空间； $\mathcal{A}$ 为动作空间；未知的状态转移概率 $p:\mathcal{S}\times\mathcal{S}\times\mathcal{A}\to [0,\infty)$ 表示给定当前状态 $s_t\in\mathcal{S}$ 和动作 $a_t\in \mathcal{A}$ 时下一个状态 $s_{t+1}\in \mathcal{S}$ 的概率密度；环境在每次状态转移时获得一个有界的立即回报 $r:\mathcal{S}\times\mathcal{A}\to[r_{\min}, r_{\max}]$ ； $\rho_{\pi}(s_t)$ 和 $\rho_{\pi}(s_t,a_t)$ 分别表示由策略 $\pi(a_t|s_t)$ 产生的轨迹的边缘状态、状态-动作分布(边缘即当前时刻的意思)。

1. 累计平均回报

SAC算法设定了一个最大熵目标 $r(s_t,a_t)+\alpha\mathcal{H}(\pi(·|s_t))$ ，它通过最大化累计最大熵目标的期望值 $J(\pi)$ （累计平均回报）来使策略 $\pi$ 随机化，如公式(1)：
$J(\pi)=\sum_{t=0}^{T}\mathbb{E}_{(s_t,a_t)\sim\rho_\pi}[r(s_t,a_t)+\alpha\mathcal{H}(\pi(·|s_t))]$ 其中， $r(s_t,a_t)$ 表示普通的立即回报项； $\mathcal{H}(\pi(·|s_t))$ 表示熵回报项； $\alpha$ 是温度参数(权重)，它决定了熵项对立即回报的相对重要性，从而控制了最优策略的随机性，在下文中凡是涉及到熵项的都应带上权重 $\alpha$ ，只是有时会略写。

1.1. 熵探索策略

熵回报项 $\mathcal{H}(\pi(·|s_t))$ 是如何产生随机策略的？我们来看到信息熵的数学公式： $\mathcal{H}(X)=\mathbb{E}[-\log P(X)]=-\mathbb{E}_{x_i}\log P(x_i)$ 其中， $x_i$ 是随机变量； $P(x_i)$ 是随机变量出现的概率。需要注意，由于概率值 $P(x_i)\in [0,1]$ ，因此 $\log P(x_i)\leqslant 0$ ，即 $\mathcal{H}(X)\geqslant 0$ 。

当我们使用随机策略而不是确定性策略时，策略 $\pi(s_t,a_t)$ 就代表在状态 $s_t$ 时 $a_t$ 被选择的概率。此时可得推导式(1)： $\mathcal{H}(\pi(\cdot|s_{t}))=-\mathbb{E}_{a_t\sim \pi}\log \pi(a_t|s_t)=-\log \pi(·|s_t)$

可以看到，策略 $\pi$ 产生的动作越确定，即某些动作被选择的概率远大于其他大部分动作，那么其他大部分动作被选择的概率就相对较小，熵期望值就会越趋向于0；反之，若策略 $\pi$ 产生的动作越不确定，即各个动作被选择的概率较为平均，熵值就越大。

可能上面的话不是很直观，下面我们举个例子。假设现在有5个动作可供选择，不同策略 $\pi$ 产生动作的概率分别有以下两种情况：

pi_1 = [0.2, 0.2, 0.2, 0.2, 0.2];
pi_2 = [0.1, 0.1, 0.6, 0.1, 0.1];

下图分别是两种策略产生动作概率的示意图，柱子上面的数字就是该动作当前概率下的熵值，所有动作熵值求期望之后就得到了该策略的熵值。
在这里插入图片描述

可以看出，左图的 $\mathcal{H}(\pi_1(\cdot|s_{t}))=0.7$ ，要大于右图的 $\mathcal{H}(\pi_2(\cdot|s_{t}))=0.532$ 。

在反馈中加入熵回报项，就会使得熵值越大时得到的立即回报越大，让动作的探索具有更大的可能性（即各个动作被选取到的概率拉得更平）。同时通过控制熵回报项的权重 $\alpha$ 在训练的过程中不断减小，让策略逐渐从探索转移到利用上。

熵探索的特性有利于加快策略的收敛速度(朝熵值最大化的方向收敛)，同时由于动作的选择是概率性的，因此策略可以进行更广泛的探索，当有多个较优动作时(即概率值较高且接近)，可以获取多个较优动作而不是选择最优的一个。

1.2. 附录A：无限马尔科夫决策过程

公式(1) 所描述的优化目标是一次交互的最大熵目标，若要将优化目标扩展为无限马尔科夫决策过程，且允许交互轨迹不完整，则要引入折扣因子 $\gamma$ ，这时优化目标 $J(\pi)$ 定义为公式(14)： $J(\pi)=\sum_{t=0}^{\infty}\mathbb{E}_{(s_t,a_t)\sim\rho_\pi}\biggl[\sum_{l=t}^{\infty}\gamma^{l-t}\mathbb{E}_{s_l\sim p,a_l\sim \pi}[r(s_t,a_t)+\alpha\mathcal{H}(\pi(·|s_t))]\biggr]$

这样的定义是将未来的回报全部折现到 $l = t$ 时刻，从这个角度理解，公式(1) 与公式(14) 就可以进行如下对比：
$J(\pi)^T=\sum_{t=0}^{T}\mathbb{E}_{(s_t,a_t)\sim\rho_\pi}[G_t^{cur}]$ $J(\pi)^\infty=\sum_{t=0}^{\infty}\mathbb{E}_{(s_t,a_t)\sim\rho_\pi}[G_t^{dis}]$ $G_t^{cur}$ 只包括了状态 $s_t$ 时的现值回报， $G_t^{dis}$ 包括了当前状态 $s_t$ 时的现值回报以及未来 $\infty-l$ 个状态的折现回报。虽然我这里写的是 $\infty-l$ ，但实际上，由于 $\gamma^{l-t}$ 在不断减小， $\infty$ 一定是有一个大于 $l$ 的终止值的。

2. Soft 策略迭代

最大熵策略的策略迭代过程称为Soft策略迭代，它分为两个步骤：(1)Soft 策略评估；(2)Soft 策略改进。

在Soft策略迭代中，对于固定的策略 $\pi$ ，任何函数 $Q:\mathcal{S}\times\mathcal{A}\to \mathbb{R}$ 开始，应用贝尔曼算子 $\mathcal{T}^\pi$ 可得Soft Q值，表示为公式(2)：
$\mathcal{T}^{\pi}Q(s_t,a_t)\triangleq r(a_t,s_t)+\gamma\mathbb{E}_{s_{t+1}\sim p}[V(s_{t+1})]$ 其中，状态-值函数 $V(s_{t+1})$ 由公式(3) 表示：
$V(s_t)=\mathbb{E}_{a_t\sim\pi}[Q(s_t,a_t)-\log(\pi(a_t|s_t))]$

这里的状态-值函数 $V(s_t)$ 称为Soft V函数，通过重复应用贝尔曼算子 $\mathcal{T}^\pi$ ，得到任何策略 $\pi$ 的Soft V函数。

贝尔曼算子 $\mathcal{T}^\pi$ 是一种操作符，它表示对当前的价值函数集 $V$ 利用贝尔曼方程进行更新。

2.1. Soft V函数的推导过程

由强化学习的定义可知， $V$ 函数是指状态值函数，表示状态 $s_t$ 时的价值； $Q$ 函数是指状态-动作-值函数，表示在状态 $s_t$ 时执行的动作 $a_t$ 的价值，它们之间有如下关系： $V(s_t)=\mathbb{E}_{a_t\sim\pi}[Q(s_t,a_t)]$ 也即， $V$ 函数等于 $Q$ 函数对动作求期望。但这个公式中的 $Q$ 函数是不含熵项的，而SAC所采用的最大熵回报中含有熵项，因此需要将熵值加入到 $Q$ 函数的值中，这个 $Q$ 函数才是soft $Q$ 函数，才能得出soft $V$ 函数的值，再结合推导式(1)，最终表达为公式(3)：

$\begin{aligned} V(s_t) & = \mathbb{E}_{a_t\sim\pi}[Q(s_t,a_t)]+\mathcal{H}(\pi(·|s_t)) \\ & = \mathbb{E}_{a_t\sim\pi}[Q(s_t,a_t)-\log(\pi(a_t|s_t))] \\ \end{aligned}$

在梳理了这两层关系之后，由Q函数推导到V函数的过程就清晰了：
$\begin{aligned} Q(s_t,a_t)& = r(a_t,s_t)+\gamma\mathbb{E}_{s_{t+1}\sim p}[V(s_{t+1})] \\ & = r(a_t,s_t) - \log\pi(a_t|s_t) + \gamma\mathbb{E}_{s_{t+1}\sim p}[V(s_{t+1})] + \log\pi(a_t|s_t) \\ & = \gamma\mathbb{E}_{s_t\sim p}[V(s_t)] + \log\pi(a_t|s_t) \\ \mathbb{E}_{a\sim\pi}[Q(s_t,a_t)] & = V(s_t) + \mathbb{E}_{a\sim\pi}[\log\pi(a|s)] \\ V(s_t)&=\mathbb{E}_{a_t\sim\pi}[Q(s_t,a_t)-\log(\pi(a_t|s_t))] \\ \end{aligned}$

2.2. 引理1：Soft 策略评估

由于在 $Q$ 函数的映射 $Q^0:\mathcal{S}\times\mathcal{A}\to\mathbb{R}$ 中，动作空间 $|\mathcal{A}|<\infty$ ，即动作空间有限，因此由公式(2) 所定义的Soft Q值更新公式 $Q^{k+1}=\mathcal{T}^{\pi}Q^k$ 在固定策略 $\pi$ 下，当 $k\to\infty$ 时一定是收敛的。

2.2.2. 引理1：Soft 策略评估的收敛性证明

首先，将当前策略 $\pi$ 下的立即回报记为： $r_\pi(s_t,a_t)\triangleq r(s_t,a_t)+\mathbb{E}_{s_{t+1}\sim p}[\alpha\mathcal{H}(\pi(·|s_t))]$ 注意，原文的这个公式没有写熵的权重 $\alpha$ ，是作者省略了，而不是它不存在。另外，由于策略 $\pi$ 确定，因此 $a_t=\pi(s_t)$ 确定，所以无需再强调策略的期望值 $\mathbb{E}_{a_t\sim \pi}$ 。

那么此时Soft Q函数的更新公式就表示为公式(15)： $Q(s_t,a_t)\leftarrow r_\pi(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1}\sim p,a_{t+1}\sim \pi}[Q(s_{t+1},a_{t+1})]$ 在公式(15) 中，若满足动作空间 $|\mathcal{A}|<\infty$ ，则 $r_\pi(s_t,a_t)$ 是有限的，且当 $k\to\infty$ 时， $\gamma$ 值逐渐减小，保证了 $Q(s_t,a_t)$ 是有界的。

2.2.3. 引理1：Soft 策略评估的收敛性证明的推导过程

尽管原文写了收敛性的最终导出，但是省略了一些中间步骤，在这里补上。
首先由公式(2) 和公式(3) 和推导式(1) 可得推导式(2)： $\begin{cases} \mathcal{T}^{\pi}Q(s_t,a_t)\triangleq r(a_t,s_t)+\gamma\mathbb{E}_{s_{t+1}\sim p}[V(s_{t+1})] \\ V(s_t)=\mathbb{E}_{a_t\sim\pi}[Q(s_t,a_t)-\log(\pi(a_t|s_t))] \\ \mathcal{H}(\pi(\cdot|s_{t}))=-\mathbb{E}_{a_t\sim \pi}\log \pi(a_t|s_t) \end{cases}\Rightarrow$

$\begin{aligned} \mathcal{T}^{\pi}Q(s_t,a_t) & \triangleq r(a_t,s_t)+\gamma\mathbb{E}_{s_{t+1}\sim p}[\mathbb{E}_{a_t\sim\pi}Q(s_{t+1},a_{t+1})+\mathcal{H}(\pi(·|s_t))] \\ & \overset{\pi(s_t)}{=} r(a_t,s_t)+\gamma\mathbb{E}_{s_{t+1}\sim p}[\mathcal{H}(\pi(·|s_t))]+\gamma\mathbb{E}_{s_{t+1}\sim p,a_{t+1}\sim\pi}[Q(s_{t+1},a_{t+1})] \\ & \overset{\gamma^0=1}{=} r(a_t,s_t)+\mathbb{E}_{s_{t+1}\sim p}[\mathcal{H}(\pi(·|s_t))]+\gamma\mathbb{E}_{s_{t+1}\sim p,a_{t+1}\sim\pi}[Q(s_{t+1},a_{t+1})] \\ & = r_\pi(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1}\sim p,a_{t+1}\sim\pi}[Q(s_{t+1},a_{t+1})] \\ Q(s_t,a_t)& \leftarrow r_\pi(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1}\sim p,a_{t+1}\sim \pi}[Q(s_{t+1},a_{t+1})] \\ \end{aligned}$

再稍微解释一下，第一步，由于策略 $\pi$ 是状态 $s_t$ 下的确定策略，因此带入的时候不需要把 $\mathcal{H}(\pi(·|s_t))$ 写成 $\mathcal{H}(\pi(·|s_{t+1}))$

第一步到第二步是由于 $t$ 时刻的策略 $\pi$ 是确定的，因此在状态 $s_t$ 时，动作 $a_t=\pi(s_t)$ 是确定的，无需再估算动作的期望值；

第二步到第三步是由于 $\mathbb{E}_{s_{t+1}\sim p}[\mathcal{H}(\pi(·|s_t))]$ 是立即回报值的一部分，不需要进行折扣， $\gamma\triangleq \gamma^0=1$ ；

第三步到第四步由2.1.2.中提到的公式 $r_\pi(s_t,a_t)\triangleq r(s_t,a_t)+\mathbb{E}_{s_{t+1}\sim p}[\alpha\mathcal{H}(\pi(·|s_t))]$ 得到。

2.3. Soft 策略改进

Soft 策略 $\pi$ 是通过Soft Q值的相对大小来给动作赋予被选择的概率的，因此在Soft 策略改进中，首先需要将预测Soft Q值转化到指数函数上，这样保证了概率的非负性。
$\exp(Q^\pi(s_t,·))$
在这里插入图片描述
下一步，为了确保各个Soft Q值转化后的概率之和等于1。需要将转换后的结果进行归一化处理。方法就是将转化后的结果除以所有转化后结果之和，可以理解为转化后结果占总数的百分比。这样就得到近似的概率。 $\frac{\exp(Q^{\pi}(s_t,·))}{Z^{\pi}(s_t)}$ 实际上，这个策略 $\pi$ 产生动作概率的过程就是一个SoftMax的过程，最终结果就是输出了当前策略 $\pi$ 时每个动作被选择概率的分布情况。

到这里，由旧策略 $\pi_{old}$ 向新策略 $\pi_{new}$ 更新的过程就可以表示为公式(4)：

$\pi_{new}=\argmin_{\pi'\in\prod}D_{KL}\Bigl(\pi'(·|s_t)\Vert\frac{\exp(Q^{\pi_{old}}(s_t,·))}{Z^{\pi_{old}}(s_t)}\Bigr)$ 这个更新公式使用了KL散度来做分布投影，简单来说，KL散度的作用就是衡量两个分布之间的差异。通过在策略空间 $\prod$ (所有动作概率值的组合空间)中，寻找与 $\frac{\exp(Q^{\pi}(s_t,·))}{Z^{\pi}(s_t)}$ 最相似的分布 $\pi'$ 来作为新的策略 $\pi_{new}=\pi'\in\prod$ 。

注意这里的 $\frac{\exp(Q^{\pi}(s_t,·))}{Z^{\pi}(s_t)}$ 虽然产生自 $\pi_{old}$ ，但由于策略的随机性， $\frac{\exp(Q^{\pi}(s_t,·))}{Z^{\pi}(s_t)}$ 并不完全等于 $\pi_{old}$ 。

2.3.1. 引理2：Soft 策略改进

设 $\pi_{old}\in\prod$ 以及 $\pi_{new}$ 是由公式(4) 生成当前状态 $s_t$ 下的最优策略。那么当满足 $(s_t,a_t)\in \mathcal{S}\times\mathcal{A}$ 且 $|\mathcal{A}|<\infty$ 时一定会有 $Q^{\pi_{new}}(s_t,a_t)\geqslant Q^{\pi_{new}}(s_t,a_t)$

2.3.2. 引理2：Soft 策略改进证明

首先，我们定义 $Q^{\pi_{old}}$ 和 $V^{\pi_{old}}$ 是在策略 $\pi_{old}$ 下产生的Soft Q值和Soft V值，那么有公式(4) 可得公式(16)：
$\begin{aligned} \pi_{new} &=\argmin_{\pi'\in\prod}D_{KL}\Bigl(\pi'(·|s_t)\Vert\frac{\exp(Q^{\pi_{old}}(s_t,·))}{Z^{\pi_{old}}(s_t)}\Bigr) \\ &=\argmin_{\pi'\in\prod}D_{KL}\Bigl(\pi'(·|s_t)\Vert\frac{\exp(Q^{\pi_{old}}(s_t,·))}{\exp(\log(Z^{\pi_{old}}(s_t)))}\Bigr) \\ & = \argmin_{\pi'\in\prod}D_{KL}\Bigl(\pi'(·|s_t)\Vert\exp(Q^{\pi_{old}}(s_t,·)-\log Z^{\pi_{old}}(s_t))\Bigr) \\ & = \argmin_{\pi'\in\prod} J_{\pi_{old}}(\pi'(·|s_t)) \\ \end{aligned}$ 其中， $J_{\pi_{old}}(\pi'(·|s_t))$ 是指 $\pi_{old}$ 在当前状态 $s_t$ 时所产生的动作概率分布与 $\pi'(·|s_t)$ 的KL散度，也就是它们之间的差异大小。

并不显而易见的是，由公式(16) 一定导出这样的情况： $J_{\pi_{old}}(\pi_{new}(·|s_t))\leqslant J_{\pi_{old}}(\pi_{old}(·|s_t))$ 初一看这个公式好像有点反直觉， $\pi_{old}$ 与 $\pi_{new}(·|s_t)$ 的KL散度怎么会小于 $\pi_{old}$ 与 $\pi_{old}(·|s_t)$ 的KL散度呢？明明 $\pi_{old}$ 与 $\pi_{old}$ 的分布是一样的，KL散度不应该等于0吗？但实际上，策略 $\pi_{old}$ 产生的是随机策略，因此它作为一个固定策略不一定能很好的表示当前状态 $s_t$ 时它自身产生的动作概率分布，正相反，由于 $\pi_{new}(·|s_t)$ 是当前状态 $s_t$ 时动作概率分布的近似分布。因此在当前的状态 $s_t$ 时，有 $J_{\pi_{old}}(\pi_{new}(·|s_t))\leqslant J_{\pi_{old}}(\pi_{old}(·|s_t))$ 。

举个不恰当的例子（只是为了理解），抛一枚硬币采正反面的次数，在大数定理下我们知道正面的次数会等于反面的次数，但实际上通常都不会正好是这样的情况。比如我们抛10次硬币，很可能出现7次正面、3次反面的情况，那么这时正反面的分布情况就是7:3，而不是5:5，这时 $\pi_{new}=7:3$ 就比 $\pi_{old}=5:5$ 更符合既成事实。

由此可以得到公式(17)： $\mathbb{E}_{a_{t}\sim\pi_{new}}[\log{\pi_{new}(a_t|s_t)}-Q^{\pi_{old}}(s_t,a_t)+\log{Z^{\pi_{old}}(s_t)}] \leqslant \mathbb{E}_{a_{t}\sim\pi_{old}}[\log{\pi_{old}(a_t|s_t)}-Q^{\pi_{old}}(s_t,a_t)+\log{Z^{\pi_{old}}(s_t)}]$ 重复一遍，由于 $\pi_{new}$ 与 $\pi_{old}$ 在当前状态 $s_t$ 时所产生的随机动作概率分布 $Q^{\pi_{old}}(s_t,a_t)+\log{Z^{\pi_{old}}(s_t)}$ 更相似，因此它们相减的结果会小于 $\pi_{old}$ 与 $\pi_{old}$ 在当前状态 $s_t$ 时所产生的随机动作概率分布 $Q^{\pi_{old}}(s_t,a_t)+\log{Z^{\pi_{old}}(s_t)}$ 相减的结果，该计算式的作用于KL散度一致，都衡量了两个分布之间的差别。

多说一句，我上面这段话只强调了 $\pi(a_t|s_t)$ ，但其熵值的结果也一样，因为策略 $\pi_{new}$ 对当前状态的不确定性更大( $\pi_{new}$ 相比于 $\pi_{old}$ 朝最大熵方向更进了一步)，因此它的熵值： $-\log{\pi_{new}(a_t|s_t)}$ 比 $\pi_{old}$ 更大，所以 $\log{\pi_{new}(a_t|s_t)}$ 更小。

由于 $Z^{\pi_{old}}(s_t)$ 是归一化项，对不等式关系不产生影响，因此可以该公式化简为： $\mathbb{E}_{a_{t}\sim\pi_{new}}[\log{\pi_{new}(a_t|s_t)}-Q^{\pi_{old}}(s_t,a_t)] \leqslant \mathbb{E}_{a_{t}\sim\pi_{old}}[\log{\pi_{old}(a_t|s_t)}-Q^{\pi_{old}}(s_t,a_t)]$ 变换形式，再结合公式(3) 可得公式(18)：

$\begin{aligned} \mathbb{E}_{a_{t}\sim\pi_{new}}[Q^{\pi_{old}}(s_t,a_t)-\log{\pi_{new}(a_t|s_t)}] & \geqslant \mathbb{E}_{a_{t}\sim\pi_{old}}[Q^{\pi_{old}}(s_t,a_t)-\log{\pi_{old}(a_t|s_t)}] \\ & \geqslant V^{\pi_{old}}(s_t) \\ \end{aligned}$ 再带入到公式(2) 可得公式(19)，表示了在一次迭代中Soft Q函数的更新情况： $\begin{aligned} Q^{\pi_{old}}(s_t,a_t) &\triangleq r(a_t,s_t)+\gamma\mathbb{E}_{s_{t+1}\sim p}[V^{\pi_{old}}(s_{t+1})] \\ & \leqslant r(a_t,s_t)+\gamma\mathbb{E}_{a_{t+1}\sim\pi_{new}}[Q^{\pi_{old}}(s_{t+1},a_{t+1})-\log{\pi_{new}(a_{t+1}|s_{t+1})}] \\ & \leqslant Q^{\pi_{new}}(s_t,a_t) \\ \end{aligned}$

2.4. 定理1：Soft 策略迭代

Soft策略迭代的过程就是重复应用Soft策略评估和Soft策略改进，使得策略 $\pi\in \prod$ 收敛到 $\pi^*$ ，得到 $\pi^*$ 后，它所产生的Soft Q值 $Q^{\pi^*}(s_t,a_t)$ 将会比其他任何策略的Soft Q值要大。

这是显然的，因为引理2证明了Soft $Q$ 值是单调递增的，引理1证明了Soft $Q$ 值是有界的，因此一定会有一个最优的Soft Q值，标记为 $Q^*$ ，这时的策略就是最优策略 $\pi^*$ 。

5. Soft Actor-Critic

以上最大熵算法及其策略迭代的过程都是在离散的假设中进行的，如何转换为连续空间呢？那就需要对Soft Q函数和策略同时使用函数近似器（神经网络）。在SAC中，策略的评估和改进将在使用随机梯度下降的两个网络之间交替进行优化。

现在对SAC中使用的网络进行如下定义：

5.1. 状态-值函数 Soft V

Soft V函数的优化目标表示为公式(5)：
$J_{V}(\psi)=\mathbb{E}_{s_t\sim\mathcal{D}}[\frac{1}{2}(V_{\psi}(s_t)-\mathbb{E}_{a_t\sim\pi_\phi}[Q_{\theta}(s_t,a_t)-\log\pi_\phi(a_t|s_t)])^2]$ 其中， $\psi$ 是V函数网络的参数； $\mathcal{D}$ 是经验池； $a_t\sim\pi_\phi$ 指的是动作根据当前的策略采样，而不是从经验池中获取。

Soft V函数优化函数的梯度计算公式表示为公式(6)：
$\hat{\nabla}_{\psi}J_{V}(\psi)=\nabla_{\psi}V_{\psi}(s_t)(V_{\psi}(s_t)-Q_{\theta}(s_t,a_t)+\log\pi_{\phi}(a_t|s_t))$

5.2. 状态-动作-值函数 Soft Q

Soft Q函数的优化目标表示为公式(7)：
$J_{Q}(\theta)=\mathbb{E}_{(s_t,a_t)\sim\mathcal{D}}[\frac{1}{2}(Q_{\theta}(s_t,a_t)-\hat{Q}(s_t,a_t))^2]$ 其中， $\theta$ 是Q函数网络的参数； $\mathcal{D}$ 是经验池； $\hat{Q}(s_t,a_t)$ 表示为公式(8)： $\hat{Q}(s_t,a_t)=r(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1}\sim p}[V_{\overline{\psi}}(s_{t+1})]$ 其中， $\overline{\psi}$ 是指 $s_{t+1}$ 状态时的V函数网络参数。

Soft Q函数优化函数的梯度计算公式表示为公式(9)：
$\hat{\nabla}_{\theta}J_{Q}(\theta)=\nabla_{\theta}Q_{\theta}(s_t,a_t)(Q_{\theta}(s_t,a_t)-r(s_t,a_t)-\gamma V_{\overline{\psi}}(s_{t+1}))$ 这个更新公式利用了Soft V网络进行更新 $V_{\overline{\psi}}$ ，其中 $\overline{\psi}$ 可以是V网络权值的指数移动平均值（见论文Human-level control through deep reinforcement learning.）或者是定期更新的V函数权重。论文伪代码中使用了 $\overline{\psi}\leftarrow\tau\psi+(1-\tau)\overline{\psi}$ 来进行更新。

5.3. 策略 $\pi$

策略可以建模为由神经网络给出的具有均值和协方差的高斯分布。

策略的优化目标就是最小化KL散度 $J_{\pi}$ ，表示为公式(10)：
$J_{\pi}(\phi)=\mathbb{E}_{s_t\sim \mathcal{D}}\biggl[D_{KL}(\pi_{\phi}(· |s_t)||\frac{exp(Q_{\theta}(s_t,·))}{Z_{\theta}(s_t)})\biggr]$

由于策略函数被建模为神经网络，因此动作的产生可以表达为公式(11)： $a_t=f_\phi(\epsilon_t;s_t)$ 其中， $f$ 就是策略神经网络，参数为 $\phi$ ； $\epsilon$ 是网络的初始化参数，可以是高斯分布（动作的多峰由SoftMax保证，即玻尔兹曼分布）。

那么策略计算公式可以改写为公式(12)(省略归一化参数 $Z$ )： $J_{\pi}(\phi)=\mathbb{E}_{s_t\sim\mathcal{D},\epsilon_t\sim\mathcal{N}}[\log\pi_\phi(f_\phi(\epsilon_t;s_t)|s_t)-Q_\theta(s_t,f_\phi(\epsilon_t;s_t))]$ 在这个公式中，得益于神经网络，KL散度用来衡量两个分布之间差异的功能被差值计算替代了，虽然一次计算的结果会有所不同，但收敛趋势是一致的。

在这里之所以不把 $J_{\pi}(\phi)$ 写成： $J_{\pi}(\phi)=\mathbb{E}_{s_t\sim\mathcal{D},\epsilon_t\sim\mathcal{N}}[\pi_\phi(f_\phi(\epsilon_t;s_t)|s_t)-\exp{(Q_\theta(s_t,f_\phi(\epsilon_t;s_t)))}]$ 是因为Soft 策略 $\pi$ 被设定为通过Soft Q值的相对大小来给动作赋予被选择的概率的，因此这里的优化应该是 $\log\pi_\phi$ 与 $Q_\theta$ 的差值，有它的物理意义。

策略优化函数的梯度计算公式表达为公式(13)：
$\hat{\nabla}_{\phi}J_{\pi}(\phi)=\nabla_\phi\log\pi_\phi(a_t|s_t)+(\nabla_{a_t}\log\pi_\phi(a_t|s_t)-\nabla_{a_t}Q(a_t,s_t))\nabla_{\phi}f_\phi(\epsilon_t;s_t)$

6. 算法训练流程

SAC的整个算法训练流程如下所示：
在这里插入图片描述

$a_t\sim\pi_{\phi}(a_t|s_t)$
通过策略 $\pi_{\phi}$ 在依概率随机选择一个动作 $a_t$ ；
$s_{t+1}\sim p(s_{t+1}|s_t,a_t)$
选择动作后的状态转移；
$\mathcal{D}\sim\mathcal{D}\cup\{s_t,a_t,r(s_t,a_t),s_{t+1}\}$
存储轨迹到经验池；
$\psi\leftarrow\psi-\lambda_{V}\hat{\nabla}_{\psi}J_{V}(\psi)$
更新V函数网络的参数；
$\theta_i\leftarrow\theta_i-\lambda_{Q}\hat{\nabla}_{\theta_i}J_{Q}(\theta),\quad for\ i\in\{1,2\}$
更新Q函数网络的参数， $i = 1$ 和 $2$ 分别是主Q网络和目标Q网络的参数；
$\phi\leftarrow\phi-\lambda_{\pi}\hat{\nabla}_{\phi}J_{\pi}(\phi)$
更新策略网络的参数；
$\overline{\psi}\leftarrow\tau\psi+(1-\tau)\overline{\psi}$
更新下一时间步时的V函数网络的参数，该V用于更新目标Q网络（论文公式(8)）。