Q学习是常见的强化学习方法,深度Q学习是为了解决传统Q学习的限制(存储空间)而出现的方法,目前多用于对高维数据的学习(深度--可以处理高维数据)。在python中使用tensorflow等框架可轻松实现深度Q学习,但是理解其过程是有难度的或者几乎黑盒。处理的难度在于误差的梯度计算。接下来介绍一下我的一些做法,在java中实现相关的方法。
首先,Q学习的入门例子,可参看百度搜索第一名的讲解(房间),程序非常好实现,为后面实验需要,将正反馈值设为1。python结果如下:
房间状态的转移值很快得到,那么如何使用深度Q学习实现这个房间问题?对照2013年的DQL版本伪代码可轻松 实现,需要注意的是,误差loss的计算应该如下图所示,谁最大,谁才拥有误差,其他动作的误差可设置为0(softmax应该可以)。
这样在java中可实现