深度强化学习算法之SAC算法

最新推荐文章于 2024-01-15 21:23:09 发布

小文文是世界上最可爱的

最新推荐文章于 2024-01-15 21:23:09 发布

阅读量1.3w

点赞数 11

分类专栏：深度强化学习算法总结

本文链接：https://blog.csdn.net/qq_36546042/article/details/119386805

版权

本文深入探讨了深度强化学习中的SAC（Soft Actor Critic）算法，从最大熵强化学习原理出发，解释了软策略迭代的概念，并详细介绍了SAC算法的实现，包括价值网络、软Q网络和策略网络的优化。文章还讨论了SAC的改进，如自动调整熵系数以适应奖励的变化，并提供了代码实现参考。

摘要由CSDN通过智能技术生成

深度强化学习算法之SAC（Soft Actor Critic）算法

文章地址：
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
Soft Actor-Critic Algorithms and Applications

代码地址：
demo1
demo2

参考地址：
BLOG1
BLOG2
BLOG3
BLOG4

1、最大熵强化学习

一般的强化学习的目标是最大化累积奖励：
$\sum_{t} \mathbb{E}_{\left(s_t, a_{t}\right) \sim \rho_{\pi}}\left[r\left(s_{t}, a_{t}\right)\right]$
最大熵强化学习的目标是带熵的累积奖励：
$J(\pi)=\sum_{t=0}^{T} \mathbb{E}_{(s_t, a_t) \sim \rho_{\pi}}\left[r\left(s_{t}, a_{t}\right)+\alpha H\left(\pi\left(\cdot \mid s_{t}\right)\right)\right]$

其中， $\alpha$ 为温度系数，决定熵相对于奖励的重要程度，从而控制策略的随机程度。

entropy可以理解为是一个值，用来衡量一个随机变量的随机性有多强。举个例子，如果对一个硬币出现正反面的变量进行加权，如果总是出现正面，那么这个变量的熵就很小；反之，如果出现正反面的加权值都接近0.5，那么就说明这个变量的熵很大。

假设 $\sim P$ ， $P$ 是一个分布，那么 $x$ 的熵 $H$ 的计算方式为：
$H(P)=\underset{x \sim P}{E_{P}}[-\log P(x)]$

2、从策略迭代到软策略迭代

策略迭代

分成两步：
- 策略评估，更新值函数，用来对策略进行评估
- 策略改进，更新策略，用上一步的值函数来知道策略提高

在这里插入图片描述

如上图所示，不断经过策略评估个策略提高最终找到最优策略。

软策略迭代
- 策略评估
  
  对于一个固定的策略 $\pi$ ，soft Q-value可以用Bellman backup 算子 $\Gamma^{\pi}$ 迭代求出来：
  $\mathcal{T}^{\pi} Q\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right) \triangleq r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)+\gamma \mathbb{E}_{\mathbf{s}_{t+1} \sim p}\left[V\left(\mathbf{s}_{t+1}\right)\right]$
  其中，soft state value function 为:
  $V\left(\mathbf{s}_{t}\right)=\mathbb{E}_{\mathbf{a}_{t} \sim \pi}\left[Q\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)-\log \pi\left(\mathbf{a}_{t} \mid \mathbf{s}_{t}\right)\right]$

最低0.47元/天解锁文章

小文文是世界上最可爱的

关注

11
点赞
踩
79

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习算法之SAC算法

深度强化学习算法之SAC（Soft Actor Critic）算法文章地址：Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic ActorSoft Actor-Critic Algorithms and Applications代码地址：demo1demo2参考地址：BLOG1BLOG2BLOG3BLOG41、最大熵强化学习一般的强化学习的目标
复制链接

扫一扫

专栏目录