DQN训练雅塔丽游戏Pong

@㏑

已于 2023-02-28 21:24:35 修改

阅读量866

点赞数 1

文章标签：游戏 python 深度学习

于 2023-02-28 21:21:10 首次发布

本文链接：https://blog.csdn.net/duwei1122/article/details/129269587

版权

该文分享了使用深度Q网络(DQN)在Aritta平台上对Pong游戏进行训练的过程，模型在1000个回合后开始收敛。作者提供了基于PyTorch1.8.0和CUDA10.2的实现代码，奖励曲线显示了训练效果。读者可以查阅GitHub上的参考资料以了解更多详情。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于DQN的Arita中Pong游戏的训练结果，在1000个回合之后开始收敛。
已经将训练好的模型放在代码中。
torch = 1.8.0+cuda10.2
Python = 3.8
奖励曲线：
在这里插入图片描述

DQN训练结果

参考代码：https://github.com/jmichaux/dqn-pytorch
本文代码：链接：https://pan.baidu.com/s/1hvjfO3C5XNO0XjZga6vceQ
提取码：mhkz

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

@㏑

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

深度Q网络（DQN）：玩转Atari游戏

AI天才研究院

05-21

708

Atari 游戏，作为 20 世纪 70 年代至 80 年代的经典街机游戏，为一代人带来了无数欢乐。随着人工智能技术的飞速发展，研究者们开始尝试让 AI 学会玩 Atari 游戏，以此来测试和验证 AI 算法的智能水平。研究者们正在不断改进 DQN 算法，例如 Double DQN、Dueling DQN 等，以提高其性能和稳定性。DQN 的应用领域正在不断扩展，例如自然语言处理、金融交易等。DQN 可以与其他技术结合，例如迁移学习、元学习等，以提高其效率和泛化能力。

基于强化学习DQN的超级玛丽游戏训练内含模型和文件和教程.zip

06-23

强化学习训练超级玛丽，内含预训练模型和教程。可以作为本领域的入门项目

4 条评论您还未登录，请先登录后发表或查看评论

用强化学习制作游戏AI

Talk is cheap, show me the code!

08-11

9738

前言本人最近在研究强化学习方式制作游戏AI，目前项目还在进展当中，训练效果只能说是马马虎虎，可能在细节方面处理得不是很好，现在先趁着有空记录一下近阶段的学习情况吧，如果自己的研究能给大家提供一点灵感那最好不过了。关于AI制作的方向传统算法方式传统算法这边不是我这次研究的重点，但确实是一个很经典的方向，很多游戏AI都是使用传统算法加以实现，比如NPC一定范围内随机走动之类的。说是...

深度强化学习方法（DQN）玩转Atari游戏（pong）

热门推荐

libenfan的博客

05-30

1万+

Atari Pong 简介 Pong是起源于1972年美国的一款模拟两个人打乒乓球的游戏，近几年常用于测试强化学习算法的性能。这篇文章主要记录如何用DQN实现玩Atari游戏中的Pong，希望对和我一样的小白有所帮助，文章最后附本文代码及参考代码环境介绍： torch = 1.8.0+cu111 Python = 3.8.5 装环境的过程见本人另一篇博客https://blog.csdn.net/libenfan/article/details/116396388?spm=1001.2014.3001.

deep-reinforcement-learning-atari-pong:强化学习DQN算法的PyTorch在OpenAI Atari Pong游戏中的应用

03-12

Atari Pong中的深度强化学习算法概括此应用程序的目标是找出深度Q学习（DQN）在OpenAI环境中对Pong的Atari 1600游戏有多准确和有效。在DQN之上，测试了对相同算法的其他改进，包括多步DQN，Double DQN和Dueling DQN。从下图可以看出，基本DQN仅需玩约110场游戏即可达到类似于人的准确性，而经过300场游戏即可达到极高的准确性。此项目中考虑的DQN改进版本显示出效率和准确性方面的一些改进。基本DQN：第1集与第216集环保环境 Atari 1600仿真器由OpenAI制作，您可以在59种不同的游戏上测试您的强化算法。使用深度强化学习，因为输入是当前帧（210x160x3）的RGB图片。由于RGB图片的计算量太大，因此变成了灰度。接下来是将图像缩减采样并将其剪切到可播放区域，该区域的大小为84x84x1。灰度，下采样和裁剪

DQN-Atari:Atari pong的深度Q学习（DQN）实施

05-04

DQN-雅达利深度Q网络实现。实施从论文《和得出。结果游戏视频-DQN Nature Paper 每集奖励实施摘要 DQN自然架构实施输入：84×84×4图像（使用历史记录的最后4帧）转换层1：32个8×8滤光片，步幅为4 转换层2：64个4×4步幅的滤镜转换层3：64个3×3滤光片，步幅为1 完全连接1：完全连接，由256个整流器单元组成输出：完全连接的线性层，每个有效动作均具有单个输出。 DQN Neurips架构实施输入：84×84×4图像（使用历史记录的最后4帧）转换层1：16个8×8滤光片，步幅为4 转换层2：32个4×4步幅的滤镜完全连接1：完全连接，由256个整流器单元组成输出：完全连接的线性层，每个有效动作均具有单个输出。其他参数优化器：RMSProp 批量大小：32 电子贪婪：0.1 怎么跑创建一个新环境例子： conda

dqn-pong-master：深度学习课程最终项目

02-19

以下存储库详细介绍了使用强化学习的深度学习代理的实现，特别是详细介绍了深度Q网络的使用，以在经典Atari 2600主机游戏Pong的上下文中实现最新的结果。给定的解决方案包括高级优化工具，例如epsilon-greedy算法，重播缓冲区和目标网络，以进一步提高代理的准确性。结果表明，我们的模型设法胜过硬编码的Pong代理，并以21-0（最高分）获胜。

关于Pong DQN Reinforcement Learning

qq_30501837的博客

10-25

1723

DQN（Deep Q-Learning）可谓是深度强化学习（Deep Reinforcement Learning，DRL）的开山之作，是将深度学习与强化学习结合起来从而实现从感知（Perception）到动作（ Action ）的端对端（End-to-end）学习的一种全新的算法。

DQN强化学习训练Flappy Bird游戏Python代码基于TensorFlow和Pygame

02-07

# DQN强化学习训练Flappy Bird游戏Python代码基于TensorFlow和Pygame ## 介绍 DQN（Deep Q-Network）是一种卷积神经网络，基于Q学习的思想进行训练，其输入是原始像素，输出是估计未来奖励的值函数。 ## 安装依赖...

项目实战：使用Deep Q Network（DQN）算法让机器学习玩游戏（二）

zhm2229的专栏

10-14

1560

这个项目用三篇文章进行介绍，各部分的内容如下：项目实战：使用Deep Q Network（DQN）算法让机器学习玩游戏（一）：总体介绍，游戏部分项目实战：使用Deep Q Network（DQN）算法让机器学习玩游戏（二）：算法部分项目实战：使用Deep Q Network（DQN）算法让机器学习玩游戏（三）：算法和游戏的交互部分，模型训练，模型评估，使用相同的算法和参数去玩另外一个不...

AIGame，使用DQN，Keras玩游戏

07-31

这个主要是配合我的博客https://blog.csdn.net/u012465304/article/details/81318957

人工智能玩游戏之-愤怒的小鸟 DQN

12-27

人工智能玩游戏之-愤怒的小鸟的代码，采用DQN的架构实现

基于DQN实现立杆子游戏

qq_31244453的博客

12-20

3468

设置参数，定义学习率，奖励递减值，记忆库大小等 Batch_size = 32 Lr = 0.01 #学习率 Epsilon = 0.9 #最优选择动作百分比 Gamma = 0.9 #奖励递减函数 Target_replace_iter = 100 #Q现实网络的更新频率 Memo.

尝试用DQN玩只狼(pytorch框架)

m0_73872315的博客

10-27

369

只狼,DQN,Pytorch,娱乐

【强化学习】小项目分析：DQN玩游戏2048

qq272437543的博客

02-11

3969

DQN玩游戏《2048》用DQN玩小游戏，可分为游戏环境部分和模型部分，最后有源码地址 1.《2048》（应该没有人不会玩吧） 2048环境python代码操作：上下左右要点：每次都要在空地方随机产生一个新的（2或4）的块块环境奖励机制： 1.如果有消去的滑块：+消去滑块的大小（比如32+32变成64，就加64分） 2.存活：+1分 3.不能移动（即没有消去滑块或产生新滑块）：-5分（需要避免模型陷入死路） 4.死局：-20 2. Q Learning Q表：Q[s, a]记录某状态s下对应的行为

RL之DQN：基于TF训练DQN模型玩“打砖块”游戏

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

10-23

1万+

RL之DQN：基于TF训练DQN模型玩“打砖块”游戏目录输出结果设计思路训练过程输出结果 1、test01 2、test02 设计思路训练过程后期更新…… ...

强化学习-----DQN（Deep Q-network）

最新发布

qq_74722169的博客

04-07

2万+

DQN（Deep Q-Network）是一种基于深度学习和强化学习的算法，由DeepMind提出，用于解决离散动作空间下的马尔科夫决策过程（MDP）问题。它是首个成功将深度学习应用于解决强化学习任务的算法之一。DQN，即深度Q网络（Deep Q-network），是指基于深度学习的Q-Learing算法。那什么是Q-leaning？可以看上一篇文章Q-learning是一种经典的强化学习算法，用于解决马尔可夫决策过程（Markov Decision Process，MDP）中的控制问题。

DQN玩Atari游戏安装atari环境bug指南

ningmengzhihe的博客

05-29

2217

1.遇到bug：缺少atari.py怎么办 →在pypi.org官网上下载atari_py-0.2.9-cp36-cp36m-win_amd64.whl，因为我安装的python环境是3.6版本，在Anaconda Prompt里边将目录定位在whl的下载路径，pip install atari_py-0.2.9-cp36-cp36m-win_amd64.whl 安装成功啦 2.遇到bug：ROM找不到环境怎么办这句bug里边链接了Github的一个网站，https://github.com/openai

用深度强化学习玩游戏之DQN实战笔记

DejaWu33的博客

06-02

2760

用深度强化学习玩游戏之DQN实战笔记环境配置所用算法——DQN(Deep Q Network)实际场景处理实际效果如何改变文本的样式插入链接与图片如何创建一个注脚FLowchart流程图环境配置 Python 3.8 Tensorflow – 2.4.1 Opencv-python – 4.5.1 Cuda – 11.1 cudnn – 11.1 所用算法——DQN(Deep Q Network) DQN是Q学习算法与深度神经网络的结合，使用深度神经网络直接作用于RGB图像，使用target Q netw

DQN Pong Pytorch的完整代码

05-29

下面是一个使用Pytorch实现DQN算法解决Pong游戏的完整代码： ``` import gym import random import math import numpy as np import matplotlib.pyplot as plt import torch import torch.nn as nn import torch.optim as optim import torch.nn.functional as F from collections import deque # 定义神经网络模型 class DQN(nn.Module): def __init__(self, input_shape, num_actions): super(DQN, self).__init__() self.conv = nn.Sequential( nn.Conv2d(input_shape[0], 32, kernel_size=8, stride=4), nn.ReLU(), nn.Conv2d(32, 64, kernel_size=4, stride=2), nn.ReLU(), nn.Conv2d(64, 64, kernel_size=3, stride=1), nn.ReLU() ) conv_out_size = self._get_conv_out(input_shape) self.fc = nn.Sequential( nn.Linear(conv_out_size, 512), nn.ReLU(), nn.Linear(512, num_actions) ) def _get_conv_out(self, shape): o = self.conv(torch.zeros(1, *shape)) return int(np.prod(o.size())) def forward(self, x): conv_out = self.conv(x).view(x.size()[0], -1) return self.fc(conv_out) # 定义DQN算法 class DQNAgent: def __init__(self, env): self.env = env self.replay_buffer = deque(maxlen=10000) self.gamma = 0.99 self.epsilon = 1.0 self.epsilon_decay = 0.995 self.epsilon_min = 0.01 self.batch_size = 32 self.model = DQN(env.observation_space.shape, env.action_space.n).to(device) self.target_model = DQN(env.observation_space.shape, env.action_space.n).to(device) self.target_model.load_state_dict(self.model.state_dict()) self.optimizer = optim.Adam(self.model.parameters(), lr=0.00025) def act(self, state): if np.random.rand() <= self.epsilon: return self.env.action_space.sample() state = torch.FloatTensor(state).unsqueeze(0).to(device) q_values = self.model(state) return q_values.max(1)[1].item() def replay(self): if len(self.replay_buffer) < self.batch_size: return batch = random.sample(self.replay_buffer, self.batch_size) states, actions, rewards, next_states, dones = zip(*batch) states = torch.FloatTensor(states).to(device) actions = torch.LongTensor(actions).to(device) rewards = torch.FloatTensor(rewards).to(device) next_states = torch.FloatTensor(next_states).to(device) dones = torch.FloatTensor(dones).to(device) q_values = self.model(states).gather(1, actions.unsqueeze(-1)).squeeze(-1) next_q_values = self.target_model(next_states).max(1)[0] expected_q_values = rewards + self.gamma * next_q_values * (1 - dones) loss = F.mse_loss(q_values, expected_q_values.detach()) self.optimizer.zero_grad() loss.backward() self.optimizer.step() def train(self, num_episodes): rewards = [] for i in range(num_episodes): state = env.reset() done = False episode_reward = 0 while not done: action = self.act(state) next_state, reward, done, _ = env.step(action) self.replay_buffer.append((state, action, reward, next_state, done)) state = next_state episode_reward += reward self.replay() self.update_target_model() rewards.append(episode_reward) self.epsilon = max(self.epsilon_min, self.epsilon * self.epsilon_decay) print("Episode {}: reward = {}, epsilon = {}".format(i, episode_reward, self.epsilon)) return rewards def update_target_model(self): self.target_model.load_state_dict(self.model.state_dict()) # 设置超参数和设备 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") env = gym.make('Pong-v0') num_episodes = 1000 # 创建代理并训练 agent = DQNAgent(env) rewards = agent.train(num_episodes) # 绘制训练曲线 plt.plot(rewards) plt.xlabel('Episode') plt.ylabel('Reward') plt.title('Training Curve') plt.show() ``` 注意，在运行代码之前需要安装好Pytorch和Gym库。代码中使用了一个双重Q网络和经验回放的技巧来提高算法的性能和稳定性。在训练结束后，会输出每个回合的奖励和探索率，并绘制训练曲线。