Keras深度学习实战（43）——深度Q学习算法

盼小辉丶

已于 2024-06-06 15:45:33 修改

阅读量1.5k

点赞数 47

CC 4.0 BY-SA版权

分类专栏： Keras深度学习从入门到项目实战文章标签：深度学习 keras 强化学习

于 2022-12-28 07:30:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LOVEmy134611/article/details/126774917

Keras深度学习从入门到项目实战专栏收录该内容

60 篇文章 ¥29.90 ¥99.00

订阅专栏

本文介绍了Q学习与深度Q学习的基本思想，并通过Keras实现了解决FrozenLake和CartPole问题。在FrozenLake游戏中，详细阐述了环境分析、模型策略和Q学习算法的应用。在CartPole问题中，解释了问题背景，模型分析，并展示了如何使用深度Q学习算法保持杆的平衡。

Keras深度学习实战（43）——深度Q学习算法

0. 前言

在《强化学习基础》一节中，我们学习了强化学习的基本概念，并且介绍了如何在给定状态下采取随机动作。此外，我们还使用自定义环境，计算下一个状态、动作和奖励。在本节中，我们首先介绍 Q 学习与深度 Q 学习的基本思想，然后利用 OpenAI 的 Gym 库模拟 Frozen Lake 和 CartPole 问题，并使用 Keras 实现 Q 学习解决这两个问题。

1. Q 学习简介

状态-动作值函数 (State-Action Value Function)，简称 Q 函数，定义为从状态 $s_t$

了解本专栏

28 条评论

zhouluobo 2022.12.31
这种文章不评论，天理不容
- 盼小辉丶回复zhouluobo 2023.01.09
  感谢支持，一起加油，一起冲冲冲～

王平渊 2022.12.30
我最近也在用gym库做 box2d car racing，环境好不容易搞好了[face]emoji:010.png[/face]博客还在写
- 盼小辉丶回复王平渊 2023.01.09
  一起学习，一起冲冲冲～

孤独的单刀 2022.12.30
不问收获，但问耕耘，天道酬勤，好文章，三连了！希望大佬也指点我一番！
- 盼小辉丶回复孤独的单刀 2023.01.09
  相互学习，一起加油～

zhouluobo 2022.12.30
看了文章，我对大佬的膜拜犹如滔滔江水，连绵不绝
- 盼小辉丶回复zhouluobo 2023.01.09
  [face]emoji:008.png[/face]感谢支持～

像你一样不负忧伤 2022.12.29
大佬文章很有深度，内容很丰富，看完了收获很多，向大佬学习，必须支持！
- 盼小辉丶回复像你一样不负忧伤 2023.01.09
  感谢支持，欢迎持续关注，一起学习～

我会一直在的 2022.12.29
文章内容丰富，条理清晰，值得一波关注，如沐春风，配图也很有趣，希望作者也指点我一番！
- 盼小辉丶回复我会一直在的 2023.01.09
  相互学习，一起学习～

小码农叔叔 2022.12.29
博主对知识点讲解很详细，支持博主
- 盼小辉丶回复小码农叔叔 2023.01.09
  感谢支持，一起加油，一起冲冲冲～

木羽829 2022.12.28
写的太好了，支持支持[face]emoji:005.png[/face]
- 盼小辉丶回复木羽829 2023.01.09
  感谢支持，一起冲冲冲～

梦回雪乡 2022.12.28
文章写得很详细呀必须三连支持一下.
- 盼小辉丶回复梦回雪乡 2023.01.09
  感谢支持，欢迎持续关注，一起学习～

王平渊 2022.12.28
前排膜拜辉哥！！
- 盼小辉丶回复王平渊 2023.01.09
  感谢支持，一起冲冲冲～

评论 28

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

盼小辉丶 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。