深度Q学习的小例子

Q学习是常见的强化学习方法,深度Q学习是为了解决传统Q学习的限制(存储空间)而出现的方法,目前多用于对高维数据的学习(深度--可以处理高维数据)。在python中使用tensorflow等框架可轻松实现深度Q学习,但是理解其过程是有难度的或者几乎黑盒。处理的难度在于误差的梯度计算。接下来介绍一下我的一些做法,在java中实现相关的方法。

首先,Q学习的入门例子,可参看百度搜索第一名的讲解(房间),程序非常好实现,为后面实验需要,将正反馈值设为1。python结果如下:

房间状态的转移值很快得到,那么如何使用深度Q学习实现这个房间问题?对照2013年的DQL版本伪代码可轻松 实现,需要注意的是,误差loss的计算应该如下图所示,谁最大,谁才拥有误差,其他动作的误差可设置为0(softmax应该可以)。

这样在java中可实现

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值