深度Q学习的小例子

最新推荐文章于 2024-05-30 07:30:00 发布

CHJyt

最新推荐文章于 2024-05-30 07:30:00 发布

阅读量869

点赞数

文章标签： Q deep learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42552626/article/details/88526189

版权

Q学习是常见的强化学习方法，深度Q学习是为了解决传统Q学习的限制（存储空间）而出现的方法，目前多用于对高维数据的学习（深度--可以处理高维数据）。在python中使用tensorflow等框架可轻松实现深度Q学习，但是理解其过程是有难度的或者几乎黑盒。处理的难度在于误差的梯度计算。接下来介绍一下我的一些做法，在java中实现相关的方法。

首先，Q学习的入门例子，可参看百度搜索第一名的讲解（房间），程序非常好实现，为后面实验需要，将正反馈值设为1。python结果如下：

房间状态的转移值很快得到，那么如何使用深度Q学习实现这个房间问题？对照2013年的DQL版本伪代码可轻松实现，需要注意的是，误差loss的计算应该如下图所示，谁最大，谁才拥有误差，其他动作的误差可设置为0（softmax应该可以）。

这样在java中可实现

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度Q学习的小例子

Q学习是常见的强化学习方法，深度Q学习是为了解决传统Q学习的限制（存储空间）而出现的方法，目前多用于对高维数据的学习（深度--可以处理高维数据）。在python中使用tensorflow等框架可轻松实现深度Q学习，但是理解其过程是有难度的或者几乎黑盒。处理的难度在于误差的梯度计算。接下来介绍一下我的一些做法，在java中实现相关的方法。首先，Q学习的入门例子，可参看百度搜索第一名的讲解（房间）...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。