深度强化学习 on-policy 和 off-policy

本文重点探讨了深度强化学习中的on-policy和off-policy策略。on-policy学习中,当前学习策略、行为策略和目标策略参数一致,如A2C、A3C等。而off-policy学习中,行为策略或目标策略与学习策略参数不同,例如DQN、DDPG等,由于使用经验回放缓冲区,使得样本数据策略与学习策略参数不一致。
摘要由CSDN通过智能技术生成

目录

重点

on-policy

off-policy


重点

考查三个Policy的一致性:

  1. 当前正在学习的Current Policy;
  2. 生成训练数据时基于的Behavior Policy;
  3. 目标值即target value基于的Target Policy,Target Policy这个不一定有,取决于近似方法,比如只采用即时奖赏r近似的目标就没有参数。

判断Policy是否一致,就是看网络的参数是否一样。

on-policy

       所有的Policy参数均一致,比如A2C、A3C、TRPO、IMPALA、PPO、PG等。

off-policy

        只要生成训练数据sample data的policy参数或目标网络的policy与当前正在学习的policy的网络参数不一致,
       就是off-policy, 比如DQN、DDQN、Dueling DQN、

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值