Q-learning 入门技术详解：以 Frozen Lake 游戏环境为例

m0_70960708

于 2024-08-05 08:07:08 发布

阅读量5

点赞数

分类专栏：笔记文章标签：游戏

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_70960708/article/details/140916775

版权

笔记专栏收录该内容

106 篇文章 0 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文的目标是教会人工智能如何使用强化学习算法解决❄️Frozen Lake 游戏环境。我们将从头开始，尝试自己重新创建 Q-learning 算法。我们不仅要了解它是如何工作的，更重要的是，懂得为什么要这样设计。

我们希望通过本文让读者能够掌握 Q-learning 算法，并能够将其应用于其他实际问题。这是一个很有趣的迷你项目，能够帮助我们更好地理解强化学习的工作原理，并希望能够激发读者产生更多有创意的产品灵感。

我们首先需要安装Frozen Lake游戏环境，并导入以下必要的库：用于模拟游戏环境的gym、用于生成随机数的random和用于数学运算的numpy。

!pip install -q gym
!pip install -q matplotlib
import gym
import random
import numpy as np
1
2
3
4
5
01 ❄️ Frozen Lake
现在，让我们来谈一谈在本教程中要用算法解决的游戏。Frozen Lake 是一个由方块组成的简单游戏环境，AI必须从起始方块移动到目标方块。

方块可以代表安全的冰面✅，也可以代表洞❌，一旦掉进洞中就会永远被困住。
AI或agent可以执行4种动作：向左移动◀️，向下移动🔽，向右移动▶️，或向上移动🔼。
agent必须学会避开洞，以最少的动作次数到达目标方块。
默认情况下，游戏环境的配置始终保持不变。
在游戏环境的代码中，每个方块都用一个字母表示，如下所示：

S F F F (S: starting point, safe)
F H F H (F: froz

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Q-learning 入门技术详解：以 Frozen Lake 游戏环境为例

初始时，Q(G-1, aₜ) = 0，maxₐQ(G, a) = 0，因为 Q-table 为空，而 rₜ = 1，因为在游戏环境中只获得了唯一的奖励，然后得到 Q{new}(G-1, aₜ) = 1。在这个 Q-table 中，每个单元格都会包含一个值Q(s, a)，表示状态s中动作a的质量值（如果是当前状态的最佳动作，质量值则为1，如果是当前状态的最差动作，质量值则为0）。当下一次 agent 到达 G-1 旁边的状态时，它将使用与到达 G-1 相关的操作，来增加这个状态的值（我们称之为G-2）。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。