dqn 打砖块 Env 对原始gym的Env进行包装

最新推荐文章于 2023-04-14 20:34:21 发布

阿豪boy

最新推荐文章于 2023-04-14 20:34:21 发布

阅读量232

点赞数

文章标签：游戏 python opencv 深度学习 java

本文链接：https://blog.csdn.net/qq_35516360/article/details/122065743

版权

本文介绍了如何使用DQN算法包装原始的gym环境来玩打砖块游戏。游戏结束时的负反馈值对于网络收敛至关重要，作者发现设置为-2的效果最佳。同时，对输入图像进行剪裁，去除不必要的元素，以减少噪声输入并增强小球速度信息的反映。

摘要由CSDN通过智能技术生成

原文链接: dqn 打砖块 Env 对原始gym的Env进行包装

上一篇: fast style transfer 快速风格转换导出视频

下一篇: dqn 打砖块 model Dueling 网络结构

游戏结束后的负反馈值的大小很影响网络收敛...目前发现设置为-2效果比较好,-1难收敛,-3直接会train不了....

对输入图像进行处理剪裁,去除了计分板和边界等多余东西,相当于减少噪声输入

import numpy as np
import gym
import cv2 as cv
import matplotlib.pyplot as plt


# 输入必须是多副图像，因为单张图像无法获取到小球的速度信息！

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阿豪boy

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

一切皆是映射：如何评估DQN的学习效果？性能指标与分析方法

AI架构设计之禅

07-25

882

一切皆是映射：如何评估DQN的学习效果？性能指标与分析方法作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 1. 背景介绍 1.1 问题的由来

深度强化学习系列(6): DQN原理及实现

深度强化学习(DeepRL)探索博客

03-30

1万+

专栏系列文章规划 DRL&ADS系列之(1): 强化学习概述 DRL&ADS系列之(2): 深度强化学习及算法讲解 DRL&ADS系列之(3): ADS软硬件分析及DRL在Torcs中的应用上一篇文章《DRL&ADS系列之(1): 强化学习概述》已经讲解了利用神经网络近似值函数的方法，即： V̂ (s,w)≈Vπ(s)q̂&nbsp...

参与评论您还未登录，请先登录后发表或查看评论

dqn 打砖块 单网络

阿豪

01-16

215

原文链接: dqn 打砖块 单网络上一篇: ...

使用强化学习NatureDQN来玩打砖块

疯狂的鸡窝

01-21

2698

使用强化学习NatureDQN来玩打砖块目标第一版尝试打砖块的基础预处理图片预处理状态预处理网络设计第二版本尝试第三版本尝试代码目录：目标 打砖块是gym游戏中相对复杂一些的游戏，不同于CartPole游戏，状态空间较少，基本上10分钟左右训练就可以玩到最高分，打砖块要训练非常长的时间，因此对于更进一步去理解和优化DQN非常有帮助。第一版尝试 打砖块的基础 打砖块的reward设置是敲打到砖块...

强化学习-DQN-ATARI2600-打砖块

weixin_47895059的博客

10-14

1941

import torch import atari_py import pandas as pd import numpy as np import gym import time import PIL.Image as Image import torch.nn as nn class DQBReplayer: def __init__(self,capacity): self.memory = pd.DataFrame(index=range(capacity),column.

RL之DQN：基于TF训练DQN模型玩“打砖块”游戏

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

10-23

1万+

RL之DQN：基于TF训练DQN模型玩“打砖块”游戏目录输出结果设计思路训练过程输出结果 1、test01 2、test02 设计思路训练过程后期更新…… ...

增强学习系列之（三）：实现一个打砖块的游戏

superCally的专栏

01-30

1万+

增强学习 breakout 实现

打砖块游戏实验报告Android,增强学习系列之（三）：实现一个打砖块的游戏

weixin_42376940的博客

05-26

652

1.Acknowledgement本篇文章中神经网络的结构主要来自于DeepMind的这篇论文https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf2. 实现效果我们要实现的这个游戏，在openai的gym里面，叫做breakout，使用的是v3版本，初始化环境的时候需要声明一下我们想要实现的效果，基本上是这样的输入就是每一帧的图像，输出是当前应该采取的动作一...

强化学习系列之OpenAI的入门

kissgoodbye2012的博客

08-20

1万+

1.简介 OpenAI的官网地址：https://www.openai.com/ OpenAI教学网址：https://spinningup.openai.com/en/latest/ OpenAI的强化学习源代码：https://github.com/openai/baselines 图1 2019年7月OpenAI团队和他们的合作伙伴的户外合照大事记： ...

强化学习中DQN算法的相关超参数背后的意义

weixin_43744732的博客

04-14

4410

决定智能体学习环境时使用的策略网络结构，如多层感知机策略（MlpPolicy）或卷积神经网络策略（CnnPolicy）。0表示无输出，1表示信息消息（如使用的设备或包装器），2表示调试消息。: 软更新系数（“Polyak更新”，取值范围0到1），默认值为1表示硬更新。: 用于训练的环境。: 控制计算滚动统计数据时使用的窗口大小，影响评估模型性能时的平滑程度。: 决定存储过去经验的缓冲区大小，影响智能体从历史数据中学习的能力。: 控制未来奖励的折扣程度，影响智能体对即时和未来奖励的重视程度。

Python-DQN代码阅读(8)

热门推荐

B417科研笔记

03-08

3万+

1.N-step DQN N-step DQN的核心是将bellman方程展开，即 Q(st,at)=rt+γrt+1+γ2maxa′Q(st+2,a′)Q(s_t,a_t) = r_t + \gamma r_{t+1} + \gamma^2 max_{a&#x27;}Q(s_{t+2},a&#x27;)Q(st,at)=rt+γrt+1+γ2maxa′Q(st+2,a...

gym库的基本使用方法

CSU干饭人的博客

03-18

4000

gym库的基本使用方法

深度学习总结：DQN原理，算法及pytorch方式实现

weixin_40759186的博客

02-17

7534

文章目录Q-learning原理图Q-learning算法描述：pytorch实现：Q-network实现：DQN实现：2个Q-network，其中一个为target Q-network；take action获取下一步的动作，这个部分就是和环境互动的部分，选取动作是基于e-greedy来的；store transmitions就是保存数据，用于experience replay；最重要的是学习过...

强化学习 DQN算法

xckkcxxck的博客

11-05

2万+

（以下内容取自莫凡大神的教程：https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/4-1-A-DQN/） 1，什么是DQN：一种融合了神经网络和 Q learning 的方法。 2，为什么提出DQN：传统的表格形式的强化学习有这样一个瓶颈，用表格来存储每一个状态 state, 和在...

莫烦老师，DQN代码学习笔记

uuummmimiii的博客

05-27

1万+

详情请见莫烦老师DQN主页：DQN 算法更新 (Tensorflow) - 强化学习 Reinforcement Learning | 莫烦Python莫烦老师代码（没有我繁琐注释代码直通车）：MorvanZhou/Reinforcement-learning-with-tensorflow参考文献：Playing Atari with Deep Reinforcement Learninghtt...

DQN网络代码调用env.reset()后存储观测信息报错问题ValueError: setting an array element with a sequence.解决处理

Vulcan_Q的博客

10-27

3575

**reset()函数返回的是一个array类型以及其中数据的type！模拟游戏进行学习任务。因此需要将observation指定为真正需要的array信息即可,得到的的变量observation类型与Agent存储时的。因此怀疑返回的observation有问题，于是通过。报错信息提示为数据维度不对应，也即最初通过。在强化学习DQN网络代码实现过程中，针对。

DQN强化学习教程：征服gym Mountain Car游戏

通过实现DQN算法，并在gym Mountain Car环境中进行训练和测试，可以深入理解强化学习的工作原理及其应用。对于对强化学习感兴趣的开发者而言，这个项目是一个很好的起点，它不仅涵盖了理论知识，还提供了实践操作的...