2021年04月_星之所望

12月 11月 09月 05月 04月 03月 02月 01月

原创算法学习（十七）——A2C和PPO

PPO算法有三个重点：1.可以输出连续的控制信号，比如输出正太分布的均值和方差作为一个连续动作的动作概率2.将PG的在线学习，改成离线学习，提高数据的利用率。具体方法是使用重要性采样，将不同动作的TD-Error加上一个动作的概率，从而可以在用不同阶段策略的数据更新本阶段的模型。3.N-step参数更新方式。原本的AC模型中，使用0阶的TD-Error更新模型，前向探索能力不足，使用N步之后的TD-Error可以更有效的获取动作的好坏。调参技巧：PPO算法玩Atari游戏的时候，

2021-04-01 16:51:34 4490

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 算法学习（十七）——A2C和PPO

空空如也

空空如也

原创算法学习（十七）——A2C和PPO