迷宫_Q-Learning算法_边做边学深度强化学习：PyTorch程序设计实践（3）

最新推荐文章于 2024-08-13 01:02:51 发布

sethnieTech

最新推荐文章于 2024-08-13 01:02:51 发布

阅读量468

点赞数

分类专栏：边学边做深度强化学习文章标签：算法 pytorch python

本文链接：https://blog.csdn.net/qq_34206137/article/details/126669263

版权

本文通过PyTorch实现了一个使用Q-Learning算法解决迷宫问题的深度强化学习示例。首先定义了迷宫和动作，接着介绍了如何将策略参数转换为行动策略，并定义了Q-Learning算法、动作获取和状态更新函数。智能体通过不断学习和调整策略，最终找到从起点到终点的最优路径。文章还提供了路径可视化和代码下载链接，帮助读者深入理解Q-Learning在实际问题中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

迷宫_Q-Learning算法_边做边学深度强化学习：PyTorch程序设计实践（3）

0、相关系列文章
1、导入所使用的包
2、定义迷宫
3、定义迷宫动作
4、策略参数θ转换为行动策略π
5、定义动作和状态获取函数
6、定义Q-Learning算法
7、定义使智能体移动到目标的函数
8、初始化
9、智能体移动到目标
10、运行路径可视化
11、最终结果
12、代码下载
13、参考资料

1、导入所使用的包

# 导入所使用的包
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.cm import ScalarMappable

2、定义迷宫

fig = plt.figure(figsize=(5, 5))
ax = plt.gca()

# 画出红色的墙壁
plt.plot([1, 1], [0, 1], color='red', linewidth=2)
plt.plot([1, 2], [2, 2], color='red', linewidth=2)
plt.plot([2, 2], [2, 1], color='red', linewidth=2)
plt.plot([2, 3], [1, 1], color='red', linewidth=2)

# 画出表示状态的文字S0-S8
plt.text(0.5, 2.5, 'S0', size=14, ha='center')
plt.text(1.5, 2.5, 'S1', size=14, ha='center')
plt.text(2.5, 2.5, 'S2', size=14, ha='center')
plt.text(0.5, 1.5, 'S3', size=14, ha='center')
plt.text(1.5, 1.5, 'S4', size=14, ha='center')
plt.text(2.5, 1.5, 'S5', size=14, ha='center')
plt.text(0.5, 0.5, 'S6', size=14, ha='center')
plt.text(1.5, 0.5, 'S7', size=14, ha='center')
plt.text(2.5, 0.5, 'S8', size=14, ha='center')
plt.text(0.5, 2.3, 'START', ha='center')
plt.text(2.5, 0.3, 'GOAL', ha='center')

# 设定画图的范围
ax.set_xlim(0, 3)
ax.set_ylim(0, 3)
ax.set_title("Q_Learning")
plt.tick_params(axis