深度学习-强化学习-价值学习

 在此之间,请先了解:强化学习专业名词解释

图片来源:【王树森】深度强化学习

deep Q-network(DQN):神经网络近似最佳Qπ函数(Q*),根据Q*得到当前最好的动作。

用Q(s,a;w)近似Q*(s,a)。w是参数。

97c555d706fb4c54a944c119bdffb76c.png

 

conv为卷积层,得到feature(特征),再用dense(全连接)得到每个动作对应的Q对应的分数,选择分数最高的。

训练DQN方法:

     最常用的是TD算法(temporal difference learning):

dc741791a1b04fcdb36900c669f6e7b8.png

模型预测从nyc到atlanta要1000分钟,实际860分钟。

因此有误差Loss ,对误差求w偏导,得到迭代式wt+1.

该example中需要完成完整的一次旅程才能更新参数,如何中途就可以呢?

 

eg:在前往Atlanta途中在dc位置汽车抛锚,如何不去了,回家了,就可以用nyc到dc的时间改善模型。因此假设nyc到dc花300分钟,模型预测还要600分钟,拿着九百分钟就是新的时间。

b402baf436d745deb59d17abff0871ff.png

 a2c8d6742198468c81862ea55f356c2f.png

 因此同理,用来训练DQN就是不需要打完游戏也可以训练参数。

54f6c173a88541f88a4d8804660ad1c4.png

深度强化学习中,

 41a41e38f7454a93900e9e0da66c1f10.png

 Q(st,at;w)表示一开始对整个行程的预计时间。rt表示nyc到dc的实际时间。

Q(st+1,at+1;w)表示在dc到Atlanta的预计时间。未来的奖励不是那么重要,所以有y。

对该式的推导:

c5ed3f7572014a98b277285fb1b7f6ff.png

 所以得到:

f9c024eb9d4f46c1b3875ffcd937e54e.png

 还知道Q是Ut的期望,所以有:

1a2ff139575740dbb5a9b31fb63ca3fc.png

 所以左边的可以认为是预测,右边的认为是实际。7e2a10afcc694a2989a4cba02ef065df.png

 所以t时刻实际值为:

dba5e0319ce746d78654932da959b67f.png

 at+1由Qπ决定,选择能让Qπ最大的动作,也就是Q*。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值