Dqn \ Nature15 \ Human-level control through deep reinforcement learning

reference

  1. DQN blog
  2. 补充了很多论文detail部分的东西 ,算法细节我还真的没有仔细关注到

background

  • 强化学习是不稳定的甚至是发散的当使用非线性函数逼近器(例如神经网络)表示作用值(也称为Q)函数
  • 这个不稳定的原因有:
    • 观察序列中存在相关性 [这个对神经网络是影响很大]
    • 对Q的小的更新可能会显着改变策略的变化从而改变了数据分布的事实,以及作用值(Q)与目标值之间?的相关性 [这个是基于价值函数的通病–》在值函数上修改可能导致policy的改动十分大]

refer1总结的很好:
这里提到的问题实际上是RL和DL结合会产生的问题

  1. DL需要大量带标签的样本进行监督学习;RL只有reward返回值,而且伴随着噪声,延迟(过了几十毫秒才返回),稀疏(很多State的reward是0)等问题;
  2. DL的样本独立;RL前后state状态相关;
  3. DL目标分布固定;RL的分布一直变化,比如你玩一个游戏,一个关卡和下一个关卡的状态分布是不同的,所以训练好了前一个关卡,下一个关卡又要重新训练;
  • 提出
    • 体验重播
    • 将target (Q) value调整为仅定期更新的目标值,从而减少了与目标的相关性

refer1总结的很好:

  1. 通过Q-Learning使用reward来构造标签(对应问题1)
  2. 通过experience replay(经验池)的方法来解决相关性及非静态分布问题(对应问题2、3)
  3. 使用一个CNN(MainNet)产生当前Q值,使用另外一个CNN(Target)产生Target Q值(对应问题4)

learning

  • 使用两个指标来展示:average score per episode and average action Q value function
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值