强化学习
bloomerOAO
记录感悟,体会成长
展开
-
深度强化学习-SAC的网络结构和功能的通俗解释
深度强化学习-SAC的通俗解释本blog不涉及具体理论解析,只希望从应用角度对算法进行解读。如果想详细了解详细理论推导,可以参考博文:最前沿:深度解读Soft Actor-Critic算法1、算法优点:SAC采用一种off-policy的随机策略。离线:探索策略和学习策略不是同一个网络,随机:...原创 2022-02-22 16:07:16 · 3470 阅读 · 0 评论 -
<强化学习篇>强化学习基础路线baseline
<强化学习篇>强化学习基础路线baseline1、动作概率函数功能:输入:observation,action输出:if action=None,输出动作概率分布;if action为制定动作,输出制动动作概率。对于离散空间,返回的是probability mass,连续空间,返回的是probability density.(连续空间中probability mass为0)。2、获得当前环境函数功能:输入:无输出:当前环境3、获得参数列表:功能:输入:无输出:模型的参数4、获原创 2021-10-18 09:21:35 · 546 阅读 · 0 评论