增强学习系列之（三）：实现一个打砖块的游戏

最新推荐文章于 2024-08-26 23:27:09 发布

杨思达zzz

最新推荐文章于 2024-08-26 23:27:09 发布

阅读量1.2w

点赞数 6

分类专栏：机器学习 python 文章标签：神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/supercally/article/details/54784103

版权

本文介绍了如何使用深度Q学习（DQN）和卷积神经网络（CNN）实现一个打砖块游戏。通过处理原始图像数据，利用最近四帧作为输入，增加了时间序列信息。训练过程中，网络结构基于DeepMind的DQN论文，用CNN处理图像，然后进行全连接层计算每个动作的价值。经过长时间训练，agent能逐渐学会准确接球。

摘要由CSDN通过智能技术生成

1.Acknowledgement

本篇文章中神经网络的结构主要来自于DeepMind的这篇论文
https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

2. 实现效果

我们要实现的这个游戏，在openai的gym里面，叫做breakout，使用的是v3版本，初始化环境的时候需要声明一下

我们想要实现的效果，基本上是这样的
这里写图片描述

这里写图片描述

输入就是每一帧的图像，输出是当前应该采取的动作

一开始agent只会做随机的运动，在训练了一段时间之后，就可以精准的接住球了

3. 基本框架

基本框架这之前基本相同，都是采用Q-Learning算法

这里写图片描述

具体解释看这篇文章

http://blog.csdn.net/supercally/article/details/54767499

4. 与之前简单版本的区别

最大的区别有这几点：

1. 输入是原始的图像数据

输入是210 * 160 * 3的图像，我们稍作处理，把边上不需要的像素去掉之后降阶采样灰度化，将80 * 80 * 1的图像作为算法的输入

2. 用最近的四帧的序列作为输入

神经网络的输入不是单帧的图像，而是最近的连续四帧图像作为输入。这也很好理解，因为这样就加入了时间序列。对于打砖块这个游戏，如果只用一帧作输入的话，虽然砖块在同一个位置，但是可能是向好几个方向运动的，agent无法判断它的价值。

但是如果我们添加了最近几帧，agent就可以根据前后的时间判断出是向哪个方向运动的，这个状态就完整了

3. 卷积神经网络的结构

在用神经网络判断价值方面，与之前不同。之前简单的训练网络是用了一个隐层的网络来实现的，但是对于处理图像的任务，我们使用的是卷积神经网络

使用的网络的结构是这样的

这里写图片描述

卷积神经网络的大小这样计算

S i z e o u t p u t = W - F

最低0.47元/天解锁文章

关注

6
点赞
踩
40

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

杨思达zzz CSDN认证博客专家 CSDN认证企业博客

码龄10年

14: 原创

23万+: 周排名

119万+: 总排名

18万+: 访问

: 等级

1426: 积分

194: 粉丝

84: 获赞

58: 评论

172: 收藏

私信

关注

热门文章

分类专栏

USACO 1篇
机器学习 12篇
python 8篇

最新评论

CIFAR数据读取
猛男的成长之路: UnicodeDecodeError: 'ascii' codec can't decode byte 0x82 in position 19: ordinal not in range(128) 报错了
增强学习系列之（三）：实现一个打砖块的游戏
小张tostring: 确实迭代太久了我这一天能迭代1400次左右，这些参数加起来应该上百万了，我感觉应该喂不饱。所以我把卷积层卷积核和输出通道数改小了了些，最后参数只有16000，不知道结果会怎样（速度依然没上去，估计就是处理数据过程耗时）😂
增强学习系列之（三）：实现一个打砖块的游戏
Yoho001: 10000个迭代，估计应该跑了最少一周时间，平均5条命能得15分，感觉效率非常非常低。
识别MNIST数据集之（二）：用Python实现神经网络
STA_C: 请教个问题，在输出层的反向传播的时候，为什么不用加dscore[ scores＜= 0] = 0对Relu进行求导？
Softmax的理解与应用
weixin_38028089: 看到了对数就不想看了

最新文章

目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。