2020年03月_望天际

03月

原创强化学习PPO算法的思路流程

首先可以肯定的是PPO算法是基于actor-critic框架的，但是它又含有强烈的Policy Gradient的风格。本文仅介绍PPO算法的应用流程。通常PPO算法的实现中有三个network，一个critic network，两个actor network（old_actor and new_actor）。在一个episode中，agent首先利用现有的策略Pi (new_actor ne...

2020-03-21 14:13:00 10106 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习PPO算法的思路流程

空空如也

空空如也

原创强化学习PPO算法的思路流程