强化学习论文阅读（二）SAC算法

最新推荐文章于 2024-05-09 16:52:57 发布

为你，千千万万遍

最新推荐文章于 2024-05-09 16:52:57 发布

阅读量2.5k

点赞数 1

分类专栏：强化学习论文阅读文章标签：论文阅读算法 Powered by 金山文档

本文链接：https://blog.csdn.net/weixin_42903952/article/details/129788627

版权

强化学习同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

论文阅读

2 篇文章 0 订阅

订阅专栏

SAC是一种Off-Policy的深度强化学习算法，通过结合Actor-Critic架构、最大熵目标和Off-Policy学习来提高样本效率和探索性。最大熵强化学习鼓励策略进行更广泛的探索，避免过早收敛到局部最优。SAC通过自动调整温度参数平衡奖励与熵，实现了在多种行为模式间的优化。在实验中，SAC展现出了优于DDPG、PPO等算法的性能，并且在现实世界中的四足机器人任务中表现出良好的泛化能力。

摘要由CSDN通过智能技术生成

SAC：Soft Actor-Critic Algorithms and Applications

原文传递：SAC算法原文

作者指出深度强化学习样本效率低下的原因是：策略学习，TRPO、PPO、A3C每次策略更新都需要收集样本。学习有效的策略需要的步骤和样本数量伴随着任务的复杂性呈现增加的趋势。Off-Policy为了重复使用过去产生的经验值，但是在传统的策略公式当中不能直接使用，Off-Policy的高维、非线性函数近似和神经网络的结合使得稳定性和收敛性存在挑战。

在传统的强化学习当中，最优策略和奖励函数的比例无关，在最大熵强化学习中，比例需要选择合适的温度进行补偿，所以作者设计的基于梯度的自动调整温度的方法，调整访问状态的预期熵匹配目标值。

SAC的组成

SAC主要包含三个部分：

1：actor-critic 架构：包含价值网络和单独的策略；

2：Off-policy formulation：重复使用以前的数据以提高效率；

3：熵的最大化：稳定探索记忆稳定训练。

Actor-Critic算法一般从策略迭代开始，在策略评估和计算价值函数之间交替进行，从而获得更好的策略。Actor-critic王铎单一使用都不能达到收敛，所以一般使用联合网络进行学习，这种情况下，策略也被称为是Actor，价值函数也称作Critic，许多Actor_Critic算法都建立在标准的策略地图共识上，考虑策略的熵，单没有将熵最大化，而只是正则器。On-policy 训练倾向于提高稳定性，但是样本复杂度较差。

DDPG使用Q函数估计来实现非策略的学习，并且使用确定性动作最大化Q函数。所以常常被视为确定性的Actor-Critic算法，也可以视为近似的Q学习算法，但是DDPG很难扩展到高维任务。

作者将非策略的Actor-critic与随机的Actor相结合，以熵最大化目标为目的最大化Actor的熵。最大熵强化学习优化策略，使得策略的期望收益和期望的熵最大化。