构建一个简单的卷积神经网络，使用DRL框架tianshou匹配DQN算法

最新推荐文章于 2024-07-04 18:02:09 发布

枇杷鹭

最新推荐文章于 2024-07-04 18:02:09 发布

阅读量1.5k

点赞数 5

分类专栏： Amazing-Brick 文章标签：卷积神经网络人工智能算法 tianshou

本文链接：https://blog.csdn.net/weixin_42815609/article/details/106064906

版权

本文介绍了如何用深度强化学习DQN算法，结合tianshou框架，构建一个简单的卷积神经网络来实现小游戏的自动控制。讨论了奖励机制的设计，并详细描述了卷积神经网络的构建过程。

摘要由CSDN通过智能技术生成

在之前的文章中，我们做了如下工作：

如何设计一个类flappy-bird小游戏：【python实战】使用pygame写一个flappy-bird类小游戏 | 设计思路+项目结构+代码详解|新手向
DFS 算法是怎么回事，我是怎么应用于该小游戏的：【深度优先搜索】一个实例+两张动图彻底理解DFS|DFS与BFS的区别|用DFS自动控制我们的小游戏
BFS 算法是怎么回事，我是怎么应用于该小游戏的：【广度优先搜索】一个实例+两张动图彻底理解BFS|思路+代码详解|用DFS自动控制我们的小游戏
强化学习为什么有用？其基本原理：无需公式或代码，用生活实例谈谈AI自动控制技术“强化学习”算法框架

本节开始，我们将讨论如何用深度强化学习实现小游戏的自动控制。

构造一个简单的卷积神经网络，实现 DQN

本文涉及的 .py 文件有：

DQN_train/gym_warpper.py
DQN_train/dqn_train.py

requirements

tianshou
pytorch > 1.40
gym
openCV

封装交互环境

强化学习算法有效，很大程度上取决于奖励机制设计的是否合理。

事件	奖励
动作后碰撞障碍物、墙壁	-1
动作后无事发生	0.1
动作后得分	1

封装代码在 gym_wrapper.py 中，使用类 AmazingBrickEnv 。

强化学习机制与神经网络的构建

我设计的机制为：

每 2 帧进行一次动作决策；
状态的描述变量为 2 帧的图像。

对于每帧的图像处理如下。

# 首先把图像转换成 RGB 矩阵
pygame.surfarray.array3d(pygame.display.get_surface())
# 使用 openCV 将 RGB 矩阵矩阵转换成 100*100 的灰度0-1矩阵
x_t = cv2.cvtColor(cv2.resize(obs, (100, 100)), cv2.COLOR_BGR2GRAY)

最后使用 np.stack() 将两帧数据合并，我们就得到了一个 2 通道的图像矩阵数据。

卷积神经网络的构建

class Net(nn.Module):
    def __init__(self):
        super().__init__

最低0.47元/天解锁文章

枇杷鹭

关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录