Soft Actor-Critic 论文笔记

geter_CS

已于 2022-06-18 14:01:33 修改

阅读量9.9k

点赞数 18

分类专栏：强化学习文章标签： Soft Actor-critic Off-Policy Maximum Entropy Deep Rei

于 2019-06-02 21:36:53 首次发布

本文链接：https://blog.csdn.net/geter_CS/article/details/90639662

版权

强化学习专栏收录该内容

10 篇文章 3 订阅

订阅专栏

无模型深度强化学习算法（Model-free DRL）有两个主要缺点：

1.非常高的样本复杂性（需要与环境进行大量交互产生大量样本）
2.脆弱的收敛性（它的收敛性受超参数影响严重：学习率，探索常量等等）

这两个缺点限制了其应用于复杂的真实世界任务。

有些同策略算法（On-policy）样本效率低。比如TRPO，A3C，PPO等是同策略，他们每一步梯度计算都需要新的样本收集。而异策略算法（Off-policy），可以重复使用过去的经验。重复使用过去经验（经验回放Experiences Replay ）并不能直接使用于传统策略梯度框架，但其在基于Q学习的方法上有直接使用。此外异策略学习，高维空间，与神经网络的结合会带来稳定性和收敛性的挑战。这两个挑战对于连续状态动作任务（连续任务中Q-Learning的最大化动作通过actor直接选择）更加明显，DDPG就是一个代表。但是DDPG虽然实现在Off-policy leraning中重复利用样本，但是其对超参敏感，并且收敛性脆弱。
为了设计稳定高效的无模型DRL，本文，提出来一种异策略（Off-policy）深度AC算法，Soft Actor-Critic（SAC）,SAC基于最大熵强化学习框架。在这个框架中，演员的目标是最大化期望的奖励，同时也最大化熵。**这样做的目的是在完成任务同时行动尽量随机化。**注意是虽然实验环境是连续任务，不同于DDPG将异策略AC与确定性actor（确定性策略）结合，SAC是将异策略AC方法和随机Actor（随机策略）

最大化熵的设置的优点：改变强化学习的目标，可以实际性提升探索性和鲁棒性

实验上，SAC在连续任务上实现了state-of-the-art，而且相比于其他异策略算法更加稳定，在不同随机种子种表现相似。

SAC

首先当然是强化学习中的MDP，通过元组 $(S, A, p, r)$ 定义， $A, S$ 分别是状态和动作空间， $p$ 是转移概率： $S\times S\times A \rightarrow [0, \infty)$ . 环境给出的奖赏是有界的 $r:S\times A\rightarrow[r_{min},r_{max}]$ . 策略 $\pi(a_t|s_t)$ 引起的轨迹分布的状态和状态 - 动作边缘分布分别表示 $\rho_\pi(s_t)$ 和 $\rho_\pi(s_t|a_t)$ .

通常强化学习方法的目标是最大化累积奖赏： $\sum_t \mathbb{E}_{(s_t,a_t)\sim \rho_\pi}[r(s_t,a_t)]$ 而SAC的目标是带熵的累积奖赏： $J(\pi)=\sum_{t=0}^T\mathbb{E}_{(s_t,a_t)\sim\rho_\pi}[r(s_t,a_t)+\alpha H(\pi(\cdot|s_t))] \quad(1)$
其中参数 $\alpha$ 控制最优策略的随机程度，以及上策略熵相对于奖赏的重要程度。对于无限的情况我们可以加上折扣因子.

软策略迭代（Soft policy Iteration）

Soft policy evaluation:

策略评估阶段，根据最大熵目标（1）式计算策略对应的值函数。对于一个固定的策略其软Q值（Soft Q-value）通过改正的贝尔曼操作 $\tau^\pi$ ：
$\tau ^\pi Q(s_t,a_t)=r(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1}\sim p}[V(s_{t+1})]\quad (2)$ 其中
$V(s_t)=\mathbb{E}_{a_t\sim \pi}[Q(s_t,a_t)-log\pi(a_t|s_t)]\quad (3)$ 是软状态值函数（Soft state value function）.那么软策略评估可以通过 $Q^{k+1}=\tau^\pi Q^k$ 迭代，若通过无限次迭代，这样最终Q会收敛到策略 $\pi$ 的软 $Q$ 值函数.
定义带熵的奖赏： $r_\pi(s_t,a_t)=r(s_t,a_t)+\mathbb{E}_{s_{t+1}\sim p}[H(\pi(\cdot|s_{t+1}))]$ 则更新规则为： $Q(s_t,a_t)\leftarrow r_\pi(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1}\sim p,a_{t+1}\sim \pi}[Q(s_{t+1},a_{t+1})]$

（解释：
$Q^{k+1}(s,a)=r(s,a)+\gamma\mathbb{E}_{{s}'\sim p}[V({s}')]\quad$ 其中 $V({s}')=E_{{a}'\sim \pi}[Q^k({s}',{a}')-\alpha log(\pi({a}'|{s}'))]\quad$ (式子中没有出现alpha但是代码中是用了)，两个式子合并得到
$Q^{k+1}(s,a)=r(s,a)+\gamma \mathbb{E}_{{s}'\sim p}\mathbb{ E}_{{a}'\sim \pi}[Q^k({s}',{a}')-log(\pi({a}'|{s}'))]=r(s,a)+\gamma\mathbb{E}_{{s}'\sim p}\mathbb{ E}_{{a}'\sim \pi}[Q^k({s}',{a}')]+\gamma \mathbb{E}_{{s}'\sim p} \mathbb{E}_{{a}'\sim \pi}[-log(\pi({a}'|{s}'))]$ $r(s,a)+\gamma \mathbb{E}_{{s}'\sim p}\mathbb{ E}_{{a}'\sim \pi}[Q^k({s}',{a}')]+\mathbb{E}_{{s}'\sim p}[H(\pi(\cdot|{s}'))]$ $=r_\pi(s,a)+\gamma \mathbb{E}_{{s}'\sim p}\mathbb{ E}_{{a}'\sim \pi}[Q^k({s}',{a}')]$ 也就是实际上（2）（3）式的定义等价于更新规则
）

Soft Policy Improvement：

策略更新： $\pi_{new}=arg min D_{KL}(\pi(\cdot|s_t)||\frac{exp(Q^{\pi_{old}}(s_t,\cdot))}{Z^{\pi_{old}}(s_t)})\quad (4)$ 这里是把 $Q$ 值函数转换为概率分布来表示策略，然后求策略和Q值策略的KL散度最小时的策略. 其中 $\pi_{old}\in\prod$ ， $\pi_{new}$ 是最优化上式的策略也同样在策略空间 $\prod$ 中，满足 $Q^{\pi_{new}}(s_t,a_t)\geq Q^{\pi_{old}}(s_t,a_t)$ for all $(s_t,a_t)\in S\times A$ . 这样保证每次更新策略至少优于旧策略.

Final

软策略迭代过程（Soft policy Iteration）：就是策略评估和策略改进两个过程不断迭代，最终策略会收敛到 $\pi^*$ ，满足 $Q^*(s_t,a_t)\geq Q^\pi(s_t,a_t)$ for all $\pi\in\prod and (s_t,a_t)\in S\times A$ . 证明过程类似Sutton, Intriduction RL Chapter 4.

Soft Actor-Critic

上面的软策略迭代过程是基于tabular（表格式环境）来推导的，对于连续情况，就需要引入函数逼近。首先定义软状态值函数 $V_\psi(s_t)$ ，软 $Q$ 值函数 $Q_\theta(s_t,a_t)$ ，策略函数 $\pi_{\phi}(a_t|s_t)$ (注意是个随机策略)。对应的参数分别是 $\psi,\theta,\phi$ .

软状态值函数的目标函数是：
在这里插入图片描述
梯度：

软 $Q$ 值函数的目标函数是：

梯度：

注意这里的target网络只使用了一个 $V_{\bar{\psi}}$ .
策略更新的目标函数：

这里策略表示为带噪声的神经网络：

其中 $\varepsilon$ 是输入的噪声向量。那么策略的目标函数可以重新写成（这个式子是原目标函数省略了 $Z_\theta(s_t)$ ，因为它是与 $\phi$ 无关的量，求导为0，对梯度无影响所以省略了。KL散度计算）：
在这里插入图片描述
对上式求导(把期望去掉，因为期望通过多次批量抽样实现)得梯度：

算法：
在这里插入图片描述

geter_CS

关注

18
点赞
踩
66

收藏

觉得还不错? 一键收藏
0
评论
Soft Actor-Critic 论文笔记

无模型深度强化学习算法（Model-free DRL）有两个主要缺点：1.非常高的样本复杂性（需要与环境进行大量交互产生大量样本）2.脆弱的收敛性（它的收敛性受超参数影响严重：学习率，探索常量等等）这两个缺点限制了其应用于复杂的真实世界任务。有些同策略算法（On-policy）样本效率低。比如TRPO，A3C，PPO等是同策略，他们每一步梯度计算都需要新的样本收集。而异策略算法（Off-p......
复制链接

扫一扫

专栏目录