- 博客(7)
- 收藏
- 关注
原创 深度确定性策略梯度(DDPG)
从DDPG这个名字看,它是由D(Deep)+D(Deterministic )+ PG(Policy Gradient)组成。PG(Policy Gradient)我们在里已经讨论过。那什么是确定性策略梯度(Deterministic Policy Gradient,以下简称DPG)呢?确定性策略是和随机策略相对而言的,对于某一些动作集合来说,它可能是连续值,或者非常高维的离散值,这样动作的空间维度极大。
2022-10-18 10:17:51
855
1
原创 强化学习A3C算法
上一篇Actor-Critic算法的代码,其实很难收敛,无论怎么调参,最后的CartPole都很难稳定在200分,这是Actor-Critic算法的问题。但是我们还是有办法去有优化这个难以收敛的问题的。回忆下之前的DQN算法,为了方便收敛使用了经验回放的技巧。那么我们的Actor-Critic是不是也可以使用经验回放的技巧呢?当然可以!不过A3C更进一步,还克服了一些经验回放的问题。经验回放有什么问题呢?回放池经验数据相关性太强,用于训练的时候效果很可能不佳。
2022-09-20 22:13:09
754
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人