一、引言
在强化学习领域,如何平衡探索与利用、提升样本效率一直是核心挑战。**Soft Actor-Critic (SAC)** 作为一种基于最大熵的深度强化学习算法,凭借其出色的稳定性和样本效率,成为解决连续控制问题的热门选择。本文将从原理出发,结合关键Trick的实现细节,深入剖析SAC算法。
二、SAC算法的核心思想
SAC的核心目标是在最大化累积奖励的同时,**最大化策略的熵**。这一设计使得Agent在训练过程中保持动态的探索性,避免陷入局部最优。此外,SAC属于**Off-Policy**算法,能够重复利用历史经验数据,显著提升样本效率。
三、 SAC的四大关键Trick详解
### 1. 重参数化采样(Reparameterization Trick)
**问题**:传统策略梯度方法中,动作采样过程不可导,导致梯度估计方差较大。
**解决方案**:SAC通过重参数化将采样过程转化为可导操作。假设动作从高斯分布中采样,即 \( a = \mu(s) + \epsilon \cdot \sigma(s) \)(其中 \(\epsilon \sim \mathcal{N}(0,1)\)),将随机性转移到输入噪声,使得梯度可以直接反向传播到策略网络。
**对比PPO**:PPO通过策略比率裁剪实现稳定更新,而SAC通过重参数化直接优化策略梯度,理论推导更简洁。
### 2. 双Q网络与双Target Q网络
**问题**:Q值过高估计是Q-learning类算法的常见问题。
**解决方案**:
- **双Q网络**:使用两个独立的Q网络(\(Q_{\theta_1}, Q_{\th