- 博客(1)
- 收藏
- 关注
原创 算法学习(十七)——A2C和PPO
PPO算法有三个重点:1.可以输出连续的控制信号,比如输出正太分布的均值和方差作为一个连续动作的动作概率2.将PG的在线学习,改成离线学习,提高数据的利用率。具体方法是使用重要性采样,将不同动作的TD-Error加上一个动作的概率,从而可以在用不同阶段策略的数据更新本阶段的模型。3.N-step参数更新方式。原本的AC模型中,使用0阶的TD-Error更新模型,前向探索能力不足,使用N步之后的TD-Error可以更有效的获取动作的好坏。调参技巧:PPO算法玩Atari游戏的时候,
2021-04-01 16:51:34 4490
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人