强化学习
筱踏云
什么都不会的nlper
展开
-
强化学习系列之Policy Gradient
1、前言 坑先挖这,后面来写原创 2019-09-03 20:21:04 · 439 阅读 · 0 评论 -
强化学习系列之 Proximal Policy Optimization(PPO)
1、前言 Proximal Policy Optimization(PPO)是 Policy Gradient 的一种变形,关于 Policy Gradient 有兴趣的同学可以去看我另一篇博:强化学习系列之Policy Gradient 在 Policy Gradient 中,我们知道,每一次更新,我们都需要 sample 很多 data,更新后,这些 data 就没有用了,Proximal P...原创 2019-09-10 16:22:12 · 1599 阅读 · 0 评论