【强化学习】Human-level control through deep reinforcement learning(2015)

Human-level control through deep reinforcement learning(2015)

强化学习中,智能体面对的一个问题是:它们必须从高维输入得到有效的环境表示,并且可以把这些传递给新的环境中。

当非线性方程approximator例如神经网络被用于表示Q function,强化学习酒会不稳定甚至发散,不稳定性有以下原因:

  1. 在观察序列中的相关性。
  2. Q的小的更新可能会严重的改变策略,从而改变数据分布,action-value(Q)和target value之间的联系(为什么??)

作者用了一个新型的Q-learning的变体来解决这种不稳定性

  1. 用了经验回放机制,随机选择数据,从而消除了序列的相关性并且smooth了数据分布的变化。
  2. 用的调整Q到target的更新是周期性的,因此减少了和目标之间的关联

改进:

  1. 仅仅在训练(?)中对reward做了改变,因为每个游戏分数的范围是不一样的,把所有的positive reward都变成1,negative reward变成=1,0代表了reward不变,用这种方式限制reward有助于限制error derivation的范围并且可以对不同的游戏应用相同的学习率。同时它会影响agent的表现因为它不能区分不同
    Because the absolute value loss function jxj has a derivative of -1 for all negative values of x and a derivative of 1 for all positive values of x, clipping the squared error to be between -1 and 1 corresponds to using an absolute value loss function for errors outside of the (-1,1) interval. This form of error clipping further improved the stability of the algorithm. (??)
  2. 用了RMSprop优化算法
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值