强化学习经典算法笔记(二十一)：gym-super-mario-bros游戏环境笔记

最新推荐文章于 2025-01-18 09:15:08 发布

hhy_csdn

最新推荐文章于 2025-01-18 09:15:08 发布

阅读量8.5k

点赞数 7

分类专栏：强化学习文章标签：强化学习游戏深度学习 pytorch 机器学习

本文链接：https://blog.csdn.net/hhy_csdn/article/details/109391790

版权

这篇笔记介绍了如何利用gym-super-mario-bros创建马里奥游戏环境进行强化学习实验。内容涵盖环境安装、演示、单独关卡设置、随机关卡选择以及奖励函数的解析。此外，还详细列举了游戏状态信息，包括生命、分数、关卡等关键数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

gym-super-mario-bros游戏环境笔记

gym-super-mario-bros游戏环境笔记
- 简介
- 安装
- Demo
- - Gym demo
  - 命令行demo
- 环境
- - 单独关卡
  - 随机选择关卡
- 奖励函数
- info内容解读

gym-super-mario-bros游戏环境笔记

最近在学习Intrinsic Reward Model相关的paper，super-mario-bros可以说是算法性能测试的标配游戏环境了，可惜之前太多关注点都放在Atari上，特此开一篇笔记记录一下内容，以备后查。
在这里插入图片描述

简介

项目地址https://pypi.org/project/gym-super-mario-bros/

安装

pip install nes-py
pip install gym-super-mario-bros

需要在Ubuntu下安装，Windows不行。

Demo

游戏结束的条件应该有两个：3条命没了，或者超时了。具体实践时应该要设置一个最大探索长度。

Gym demo

from nes_py.wrappers import JoypadSpace
import gym_super_mario_bros
from gym_super_mario_bros.actions import SIMPLE_MOVEMENT
env = gym_super_mario_bros.make('SuperMarioBros-v0')
env = JoypadSpace(env, SIMPLE_MOVEMENT)

done = True
for step in

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hhy_csdn

关注关注

7
点赞
踩
24

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

基于云ModelArts的PPO算法玩“超级马里奥兄弟”【至简致远】

一键难忘的博客

06-07

932

我们利用PPO算法来玩“Super Mario Bros”（超级马里奥兄弟）。目前来看，对于绝大部分关卡，智能体都可以在1500个episode内学会过关。PPO算法有两种主要形式：PPO-Penalty和PPO-Clip(PPO2)。在这里，我们讨论PPO-Clip（OpenAI使用的主要形式）。 PPO的主要特点如下： PPO属于on-policy算法 PPO同时适用于离散和连续的动作空间损失函数 PPO-Clip算法最精髓的地方就是加入了一项比例用以描绘新老策略的差异,通过超参数ϵ限制策略的更新步长

基于PPO的强化学习超级马里奥自动通关

yewanyuan的博客

06-15

1930

本文将基于强化学习中的PPO算法训练一个自动玩超级马里奥的智能体，用于强化学习的项目实践

5 条评论您还未登录，请先登录后发表或查看评论

Python库 | gym_super_mario_bros-3.0.1-py2.py3-none-any.whl

03-31

资源分类：Python库所属语言：Python 资源全名：gym_super_mario_bros-3.0.1-py2.py3-none-any.whl 资源来源：官方安装方法：https://lanzao.blog.csdn.net/article/details/101784059

开源项目常见问题解决方案：gym-super-mario-bros

最新发布

gitblog_00976的博客

01-18

405

开源项目常见问题解决方案：gym-super-mario-bros gym-super-mario-bros An OpenAI Gym interface to Super Mario Bros. & Super Mario Bros. 2 (Lost Levels) on The NES ...

探索Gym-Super-Mario-Bros：让AI在蘑菇王国中学习

gitblog_00053的博客

04-15

622

探索Gym-Super-Mario-Bros：让AI在蘑菇王国中学习项目地址:https://gitcode.com/gh_mirrors/gy/gym-super-mario-bros 项目简介是一个开源项目，它将任天堂的经典游戏《超级马里奥兄弟》（Super Mario Bros）与强化学习环境相结合。该项目提供了一个Python接口，允许开发者和研究者利用OpenAI的Gym库训练AI模...

gym-super-mario-bros 项目使用教程

gitblog_00243的博客

10-10

981

gym-super-mario-bros 项目使用教程 gym-super-mario-bros An OpenAI Gym interface to Super Mario Bros. & Super Mario Bros. 2 (Lost Levels) on The NES ...

Super-mario-bros-A3C-pytorch：超级马里奥兄弟的异步优势Actor-Critic（A3C）算法

02-05

[PYTORCH]扮演超级马里奥兄弟的非同步优势演员评判（A3C）介绍这是我的python源代码，用于训练特工玩超级马里奥兄弟。通过使用纸异步方法用于深强化学习引入异步优势演员，评论家（A3C）算法。样品结果动机在我实施该项目之前，有多个存储库可以很好地重现本文的结果，这些存储库可以在Tensorflow，Keras和Pytorch等不同的常见深度学习框架中进行。我认为，其中大多数都很棒。但是，它们似乎在许多方面都过于复杂，包括图像的预处理，环境设置和权重初始化，这使用户的注意力从更重要的事情上转移了。因此，我决定编写更简洁的代码，以简化不重要的部分，同时仍然严格

【Tensorflow教程笔记】深度强化学习（DRL）

nanke_4869的博客

02-25

5560

Tensorflow教程笔记 TensorFlow 基础 TensorFlow 模型建立与训练基础示例：多层感知机（MLP）卷积神经网络（CNN）循环神经网络（RNN）深度强化学习（DRL）目录Tensorflow教程笔记 强化学习 （Reinforcement learning，RL）强调如何基于环境而行动，以取得最大化的预期利益。结合了深度学习技术后的强化学习（Deep Reinforcement learning，DRL）更是如虎添翼。近年广为人知的 AlphaGo 即是深度强化学习的典型

TensorFlow2中PPO算法在超级马里奥环境的应用笔记

资源摘要信息:"在本资源中，我们将详细探讨如何使用TensorFlow 2实现一个名为PPO-Mario-Bros的项目，该项目为基于超级马里奥兄弟游戏环境的近端策略优化（Proximal Policy Optimization，简称PPO）的模块化实现。...

基于强化学习的超级马里奥代码实现

weixin_44597347的博客

03-25

8534

环境 gym_super_mario_bros nes_py matplotlib pytorch stable_baselines3 numpy 简单介绍 nes_py 库是任天堂开发的专门用于控制游戏的工具，类似于游戏手柄。 gym_super_mario_bros里面有各个关卡的环境模型，这里选用SuperMarioBros-v0第一关。 stable_baselines3是对强化学习新手及其友好的库，基于pytorch进行开发，可以方便的使用各种常用的强化学习算法的代码。代码 from nes_

SuperMarioBros:基于网络的经典NES超级马里奥兄弟克隆

05-06

超级马里奥兄弟请阅读。如果您不习惯使用Github，可以帮助您入门。贡献者克里斯·万豪

DDQN_Mario:超级马里奥兄弟的Pytorch-DDQN实现

05-03

超级马里奥兄弟的Pytorch-DDQN实现该项目和实现本文的必需的结果参考 nailo2c / dqn-mario

Super-Mario-Bros:适用于 iOS 的超级马里奥兄弟的超级越野车版本

06-22

超级马里奥兄弟我的一个同事和我想制作一个超级马里奥兄弟翻拍很长一段时间。所以我们做到了！代码很旧而且也超级有问题，因为那时我们没有很多编程知识/经验我们承受着很大的压力，因为我们没有很多时间所以，我不建议使用任何这些代码。 ##它看起来像什么进一步的发展我不打算再从事这个项目，但我会审查并接受拉取请求。已知的问题物理（不，只是不） :ewe: :dashing_away: 学分卢卡斯·塞利亚斯任天堂（感谢您没有起诉我们）

PyPI 官网下载 | gym_super_mario_bros-3.0.4.tar.gz

01-27

资源来自pypi官网。资源全名：gym_super_mario_bros-3.0.4.tar.gz

0基础强化学习实践之超级玛丽

baitianzi534011382的专栏

01-05

2038

感慨多年后回到csdn已经变成了算法开发者，这些年都经历了什么。玛丽奥作为一代人的童年，陪伴了我们的成长。如今随着深度强化学习等技术的发展，越来越多的游戏正在被AI征服，那么今天我们一起来从0开始，试着征服超级玛丽吧！ 0 安装超级玛丽游戏的python包，并用代码控制超级玛丽安装超级玛丽软件包，gym_super_mario_bros这个包已经帮我们把游戏的rom封装好了常用的python接口: root# pip install gym gym_super_mario_bros 用python代

新手强化学习实现，玩转马里奥（一）

weixin_43146803的博客

10-19

2646

新手强化学习实现，用DDQN玩马里奥。模型还需改进，目前无法用于所有关卡！希望大佬们来指教！

ai玩游戏(马里奥)项目(机器强化学习)详解（二）设置游戏、预处理和环境矢量化 DummyVecEnv&VecFrameStack 人工智能项目

m0_74475812的博客

04-20

2815

ai玩游戏(马里奥)项目(机器强化学习)详解系列第二弹，本文完成了设置游戏、预处理和环境矢量化说明了DummyVecEnv、VecFrameStack的作用。解决了缺少shimmy和缺少cv2的问题。

[强化学习马里奥 MarioRL]-- 环境ENV 3

qhr_1012的博客

07-17

852

如果版本早于0.26，那么它将创建一个`SuperMarioBros-1-1-v0`的游戏环境，并不指定渲染模式，因为在0.26之前的版本中，默认就有渲染功能。4. 使用`env.step(action=0)`进行一步游戏，其中`action=0`意味着执行“向右走”的动作。然后，它从环境中获取下一个状态（`next_state`）、奖励值（`reward`）、是否完成游戏（`done`）以及额外的信息（`info`）。3. 通过调用`env.reset()`重置环境，准备开始新的游戏。

ai玩游戏(马里奥)项目详解（一）环境安装 pip nes_py的诸多安装问题：Microsoft Visual C++ 14.0 or greater is required和此处不应有\xxx等

m0_74475812的博客

04-19

2244

本文详细讲解了如何在Windows环境中下载nes_py库，解决了Microsoft Visual C++ 14.0 or greater is required、此处不应有\xxx、ValueError: not enough values to unpack (expected 5, got 4)这几个在安装热门强化学习ai测试、学习游戏：gym-super-mario-bros可能会遇到的问题。一篇文章手把手教你配置环境。