SAC（Soft Actor-Critic）

最新推荐文章于 2024-05-30 07:30:00 发布

Katniss-丫

最新推荐文章于 2024-05-30 07:30:00 发布

阅读量4.9k

点赞数 1

分类专栏：强化学习(Reinforcement Learning) 文章标签： Actor-Critic 最大熵强化学习

本文链接：https://blog.csdn.net/Katniss_smile/article/details/101350273

版权

Hi，这是第三篇算法简介呀论文链接：Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor，2018，ICML文章概述强化学习的两个主要挑战是高样本复杂性和收敛性脆弱。在这篇文章中，提出了一个基于最大熵框架的actor-critic离线策略的深度强化学...

摘要由CSDN通过智能技术生成

Hi，这是第三篇算法简介呀

论文链接：Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor，2018，ICML

文章概述

强化学习的两个主要挑战是高样本复杂性和收敛性脆弱。在这篇文章中，提出了一个基于最大熵框架的actor-critic离线策略的深度强化学习算法SAC（Soft Actor-Critic）。在DDPG中，policy和Q-value之间相互作用，使得其不稳定，容易受超参数影响。在SQL中，将actor网络作为近似采样器，而不是actor-critic算法中真正的actor，收敛取决于采样值和真实后验值的近似程度。
最大熵强化学习是将最大熵项加在reward上，其目的是鼓励探索环境，希望学到的策略在优化目标的同时尽可能地随机，同时保持在各个有希望的方向上的可能性，而不是很快收敛到一个局部最优。使用温度参数 $\alpha$ 来决定熵对reward的影响，当 $\alpha$ 趋近于0时，则reward退化为传统强化学习reward。
第一个在最大熵框架下，使用off-policy更新策略的算法。
总共包含四个网络：策略网络（ $\phi$ ），value网络和对应的目标网络（ $\psi$ 和 $\overline \psi$ ），Q-value网络（ $\theta$ ）。

公式理解

$J(\pi)=\sum_{t=0}^{T} \mathbb{E}_{\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right) \sim \rho_{\pi}}\left[r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)+\alpha \mathcal{H}\left(\pi\left(\cdot | \mathbf{s}_{t}\right)\right)\right]$

$\begin{array}{l}{\qquad \mathcal{T}^{\pi} Q\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right) \triangleq r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)+\gamma \mathbb{E}_{\mathbf{s}_{t+1} \sim p}\left[V\left(\mathbf{s}_{t+1}\right)\right]} \\ {\text { where }} \\ {\qquad V\left(\mathbf{s}_{t}\right)=\mathbb{E}_{\mathbf{a}_{t} \sim \pi}\left[Q\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)-\log \pi\left(\mathbf{a}_{t} | \mathbf{s}_{t}\right)\right]}\end{array}$

最低0.47元/天解锁文章

Katniss-丫

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
SAC（Soft Actor-Critic）

Hi，这是第三篇算法简介呀论文链接：Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor，2018，ICML文章概述强化学习的两个主要挑战是高样本复杂性和收敛性脆弱。在这篇文章中，提出了一个基于最大熵框架的actor-critic离线策略的深度强化学...
复制链接

扫一扫