柔性动作-评价(Soft Actor-Critic,SAC)算法的网络结构有5个。SAC算法解决的问题是离散动作空间和连续动作空间的强化学习问题,是off-policy的强化学习算法(关于on-policy和off-policy的讨论可见:强化学习之图解PPO算法和TD3算法)。
SAC的论文有两篇,一篇是《Soft Actor-Critic Algorithms and Applications》,2019年1月发表,其中SAC算法流程如下所示,它包括1个actor网络,4个Q Critic网络:
一篇是《Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Lear