自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

星之所望的博客

兴趣使然的AI工程师

  • 博客(1)
  • 收藏
  • 关注

原创 算法学习(十七)——A2C和PPO

PPO算法有三个重点:1.可以输出连续的控制信号,比如输出正太分布的均值和方差作为一个连续动作的动作概率2.将PG的在线学习,改成离线学习,提高数据的利用率。具体方法是使用重要性采样,将不同动作的TD-Error加上一个动作的概率,从而可以在用不同阶段策略的数据更新本阶段的模型。3.N-step参数更新方式。原本的AC模型中,使用0阶的TD-Error更新模型,前向探索能力不足,使用N步之后的TD-Error可以更有效的获取动作的好坏。调参技巧:PPO算法玩Atari游戏的时候,

2021-04-01 16:51:34 4490

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除