python迷宫通用模板_【强化学习】python 实现 q-learning 迷宫通用模板

本文介绍了一个使用Python实现的Q-Learning算法解决6x6迷宫问题的通用模板。通过创建GUI环境模拟迷宫,利用Q-Learning策略让智能体学习并走出迷宫。代码中详细定义了环境类`Maze`和智能体类`Agent`,包括状态、动作、奖励和Q-table的更新。智能体在学习过程中,逐步优化行动策略,最终能够成功找到出口。
摘要由CSDN通过智能技术生成

importpandas as pdimportrandomimporttimeimportpickleimportpathlibimportosimporttkinter as tk'''6*6 的迷宫:

-------------------------------------------

| 入口 | 陷阱 | | | | |

-------------------------------------------

| | 陷阱 | | | 陷阱 | |

-------------------------------------------

| | 陷阱 | | 陷阱 | | |

-------------------------------------------

| | 陷阱 | | 陷阱 | | |

-------------------------------------------

| | 陷阱 | | 陷阱 | 元宝 | |

-------------------------------------------

| | | | 陷阱 | | 出口 |

-------------------------------------------

作者:hhh5460

时间:20181219

地点:Tai Zi Miao'''

classMaze(tk.Tk):'''环境类(GUI)'''UNIT= 40 #pixels

MAZE_R = 6 #grid row

MAZE_C = 6 #grid column

def __init__(self):'''初始化'''super().__init__()

self.title('迷宫')

h= self.MAZE_R *self.UNIT

w= self.MAZE_C *self.UNIT

self.geometry('{0}x{1}'.format(h, w)) #窗口大小

self.canvas = tk.Canvas(self, bg='white', height=h, width=w)#画网格

for c in range(1, self.MAZE_C):

self.canvas.create_line(c* self.UNIT, 0, c *self.UNIT, h)for r in range(1, self.MAZE_R):

self.canvas.create_line(0, r* self.UNIT, w, r *self.UNIT)#画陷阱

self._draw_rect(1, 0, 'black') #在1列、0行处,下同

self._draw_rect(1, 1, 'black')

self._draw_rect(1, 2, 'black')

self._draw_rect(1, 3, 'black')

self._draw_rect(1, 4, 'black')

self._draw_rect(3, 2, 'black')

self._draw_rect(3, 3, 'black')

self._draw_rect(3, 4, 'black')

self._draw_rect(3, 5, 'black')</

人工智能大作业-基于强化学习求解迷宫问题python实现源码+项目说明+实验报告+可执行文件 【项目介绍】 该资源内项目代码都是经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶, 或者实际项目借鉴参考! 当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。如果基础还行,也可在此代码基础上进行修改,以实现其他功能。 强化学习求解迷宫问题 核心代码 - maze.py: 迷宫类的实现迷宫信息用一个二维数组表示,数组中的每个数代表一个方格,数字值代表方格类型(如0表示墙, 2表示陷阱, 3表示火)。 - train_qtable.py: Q表类的实现,Q表类有Q值的存储,决策的进行,Q表的学习等功能函数,进行预测和学习时会与迷宫(“环境”)进行交互,对其输入动作,得到反馈。 - train_network.py: 监督学习模型的学习,预测等实现。 - git.py: 监督学习用到的批量式学习仓库。 - maze_map.py: 存储6个事先定义好的迷宫 - draw.py: Q表的可视化以及完整走迷宫过程的呈现。 UI代码 - ui.py: 顶层窗口,有两个标签页 - ui_basic.py: “已有迷宫”标签页的实现,用户可以从我们定义好的几个迷宫中选择一个,进行训练并查看完整的走迷宫过程。 - ui_userDefine.py:“用户自定义”标签页的实现,用户可以输入任意大小的迷宫,自定义火焰周期,训练次数上限。之后进行训练,并以三种不同的速度查看完整的走迷宫结果。 - draw_ui.py: 在ui界面绘制Q表和走迷宫过程。 运行方法 - 打开“可执行文件/ui.exe” - 运行“代码/ui.py” - 运行“代码/train_qtable.py”,对maze_map中定义的迷宫进行训练,训练结束后显示Q表和完整走迷宫过程。 编译运行环境 python 3.6, pyqt 5.13.1, matplotlib 3.0.2, numpy 1.15.2, Pyinstaller 3.5
好的,下面是Python实现Q-learning迷宫的代码: ```python import numpy as np import random # 定义迷宫结构 maze = np.array([ [0, -1, 0, 0, 0, 0, 0, 0, 0, 0], [0, -1, 0, -1, -1, -1, 0, -1, -1, 0], [0, -1, 0, -1, 0, -1, 0, -1, 0, 0], [0, -1, -1, 0, 0, -1, 0, -1, 0, 0], [0, 0, 0, -1, -1, -1, 0, -1, -1, 0], [0, 0, 0, 0, 0, 0, 0, 0, -1, 0], [0, -1, -1, -1, -1, -1, -1, -1, -1, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0], ]) # 定义状态数量 states = maze.shape[0] * maze.shape[1] # 定义动作数量 actions = 4 # 定义学习率 alpha = 0.1 # 定义折扣因子 gamma = 0.9 # 定义探索率 epsilon = 0.1 # 定义Q值表 q_table = np.zeros((states, actions)) # 定义状态转换函数 def state_transition(state, action): row = state // maze.shape[1] col = state % maze.shape[1] if action == 0: # 上 if row == 0 or maze[row-1, col] == -1: return state else: return state - maze.shape[1] elif action == 1: # 下 if row == maze.shape[0]-1 or maze[row+1, col] == -1: return state else: return state + maze.shape[1] elif action == 2: # 左 if col == 0 or maze[row, col-1] == -1: return state else: return state - 1 elif action == 3: # 右 if col == maze.shape[1]-1 or maze[row, col+1] == -1: return state else: return state + 1 # 定义选择动作函数 def choose_action(state): if random.uniform(0, 1) < epsilon: return random.randint(0, actions-1) else: return np.argmax(q_table[state]) # 定义Q-learning算法函数 def q_learning(): for i in range(10000): state = random.randint(0, states-1) while state // maze.shape[1] != 0 or state % maze.shape[1] == 0 or state % maze.shape[1] == maze.shape[1]-1: state = random.randint(0, states-1) for j in range(100): action = choose_action(state) next_state = state_transition(state, action) reward = -1 if next_state // maze.shape[1] == maze.shape[0]-1 and next_state % maze.shape[1] != 0 and next_state % maze.shape[1] != maze.shape[1]-1 else 0 q_table[state, action] = q_table[state, action] + alpha * (reward + gamma * np.max(q_table[next_state]) - q_table[state, action]) state = next_state # 执行Q-learning算法 q_learning() # 输出Q值表和策略 print(q_table) policy = np.zeros((maze.shape[0], maze.shape[1])) for i in range(maze.shape[0]): for j in range(maze.shape[1]): if maze[i, j] != -1: policy[i, j] = np.argmax(q_table[i*maze.shape[1]+j]) print(policy) ``` 在这个代码中,我们首先定义了一个迷宫的结构,然后定义了状态数量、动作数量、学习率、折扣因子和探索率等参数。接着定义了状态转换函数、选择动作函数和Q-learning算法函数。在Q-learning算法函数中,我们使用了10000次迭代和100步每次迭代的方式进行训练,对于每个状态和动作组合,我们都更新了对应的Q值。最后输出了Q值表和策略。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值