李宏毅深度强化学习(国语)课程(2018)
PPO是Policy Gradient的变形。由on policy 变为off policy后,加些constraint,就变成了PPO。

强化学习三要素,Actor,Environment,Reward Function。

&n
李宏毅深度强化学习(国语)课程(2018)
PPO是Policy Gradient的变形。由on policy 变为off policy后,加些constraint,就变成了PPO。

强化学习三要素,Actor,Environment,Reward Function。

&n
3万+
1141
357

被折叠的 条评论
为什么被折叠?