Proximal Policy Optimization(PPO)算法原理及实现!
Proximal Policy Optimization(PPO)算法原理及实现!这两天看了一下李宏毅老师的强化学习课程的前两讲,主要介绍了Policy Gradient算法和Proximal Policy Optimization算法,在此整理总结一下。视频地址:https://www.bilibili.com/video/av24724071/?p=41、PG算法回顾在PG算法中,我们的Agent又被称为Actor,Actor对于一个特定的任务,都有自己的一个策略π,策略π通常用一个神经
原创
2020-07-31 21:22:17 ·
12178 阅读 ·
1 评论