- 博客(1)
- 收藏
- 关注
原创 强化学习PPO算法的思路流程
首先可以肯定的是PPO算法是基于actor-critic框架的,但是它又含有强烈的Policy Gradient的风格。本文仅介绍PPO算法的应用流程。通常PPO算法的实现中有三个network,一个critic network,两个actor network(old_actor and new_actor)。在一个episode中,agent首先利用现有的策略Pi (new_actor ne...
2020-03-21 14:13:00 10106 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人