使用多种AI算法玩方格迷宫——基于Value的RL算法 【开源】

使用多种AI算法玩方格迷宫

——基于Value的RL算法

目录

使用多种AI算法玩方格迷宫

——基于Value的RL算法

前言

(1)自定义数据可视化训练变化效果

(2)训练模型的TensorBoard效果

(3)训练过程的打印日志

(4)本项目开源地址等附加信息


前言

本项目是作者(MRL Liu)使用AI算法的强化学习方法方格迷宫游戏的一个阶段性总结,本项目的迷宫游戏是简单的方格迷宫,其状态空间和动作空间都足够简单,是作者整理的手中的第1个RL项目。

该项目重构了作者之前学习时的一些基于Value的RL算法,将它们的例如经验回放池的对象等抽象出来为一个对象,便于整理知识网络。该项目的原始算法代码使用的是莫烦Python的相关实现,在此向莫烦老师表示感谢。

本项目的特色是:

1、使用了统一范式的代码来定义基于Value的算法系列的实现,封装了Q-TableReplayBuffer对象

2、添加了网络模型的保存与加载功能TensorFlow可视化功能经验池保存和加载等。

3、整个项目基于良好的面向对象思想,方法定义层层推进。

本项目自定义的2个方格环境如下:

line_envmaze_env

作者对算法的代码就行了整理和重构,该项目目前包含了以下两类RL算法:

1、基于Q-Table的Q-Learning、Sarsa、Sarsa-Lambda

2、基于ReplayBuffer的Nature DQN、double DQN和dueling DQN等

DQN算法系列使用了基于TensorFlow框架训练的全连接网络的作为函数拟合器。

本项目的主要运行代码共分为3个模块:

模块模块名称主要任务
main.pyMaze项目的启动器,负责切换不同的方格环境
trainer.pyMaze项目的训练器,负责切换不同的训练流程
brain.pyMaze项目的AI大脑,负责切换不同的决策算法

(1)自定义数据可视化训练变化效果

 

(2)训练模型的TensorBoard效果

定义的计算图结构在TensorBoard中的可视化效果(Nature DQN算法):

 

定义的loss在TensorBoard中的可视化效果:

 

定义的模型变量在TensorBoard中的可视化效果:

 

(3)训练过程的打印日志

 

 

(4)本项目开源地址等附加信息

本项目使用的一些其他参考信息:

条目说明
本项目GitHub开源地址https://github.com/MagicDeveloperDRL/MRL-Maze-Value-Master
本项目作者博客地址https://blog.csdn.net/qq_41959920/article/details/115875588
本项目用到的第三方库Numpy,TensorFlow1.14.1,matplotlib,
主要参考教程https://morvanzhou.github.io/tutorials/

本项目包含的文件目录结构如下:

 

该项目中包含的AI算法的实现流程将会逐渐推出博客进行解析,若觉得对读者有帮助,欢迎继续关注。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

魔法攻城狮MRL

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值