重温强化学习之强化学习模拟平台

最新推荐文章于 2025-04-01 10:49:16 发布

BUPT-WT

最新推荐文章于 2025-04-01 10:49:16 发布

阅读量5.2k

点赞数 4

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41362649/article/details/84798175

版权

强化学习专栏收录该内容

17 篇文章

订阅专栏

本文介绍了多个强化学习研究和开发平台，包括OpenAIGym、MuJoCo、rllab、DeepMindLab、TORCS及PySC2。这些平台提供了丰富的环境和工具，支持算法开发和比较，适用于从初学者到专业研究人员的不同需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、OpenAI Gym

官网：http://gym.openai.com/

OpenAI Gym是一个用户开发和比较强化学习算法的工具包，与其它的数值计算库兼容，如tensorflow

Openai gym 包含两个部分：

1）gym开源：

包含一个测试集，每个问题成为一个环境(environment)，可以用于自己的强化学习算法开发，环境有共享的接口，允许用户设计通用的算法，例如：Atari、CartPole等

2）OpenAI Gym服务

提供一个站点和api，允许用户对他们训练的算法进行性能的比较

OpenAI安装：pip install gym[all]

OpenAI Baselines

它是OpenAI出的一些深度强化学习算法(DQN,PPO,TRPO,DDPG)的实现，基于Tensorflow和OpenAI Gym

源码：https://github.com/openai/baselines

2、MuJoCo

MuJoCo(Multi-Joint dynamics with Contact)是一个模拟的机器人，生物力学，图形和动画等领域的物理引擎

官网：http://www.mujoco.org/index.html

源码：https://github.com/openai/mujoco-py

可以使用源码安装：

git clone https://github.com/openai/mujoco-py
cd mujoco-py
pip install -e. --no-cache

3、rllab

与OpenAI Gym类似，rllab也是一个强化学习算法的框架

官网：https://rllab.readthedocs.io/en/latest/user/installation.html

源码：https://github.com/rll/rllab

与OpenAI Gym的区别在于OpenAI Gym支持更广泛的环境，且提供在线的scoreboard可以用于共享训练结果。

rllab也提供一个基于pygame的可视环境，同时也兼容OpenAI Gym

4、DeepMind Lab

DeepMind Lab是由DeepMind发布的3D迷宫场景的强化学习平台

官网：https://deepmind.com/blog/open-sourcing-deepmind-lab/

论文：https://arxiv.org/pdf/1612.03801.pdf

源码：https://github.com/deepmind/lab

5、TORCS

TORCS(The Open Racing Car Simulator)是一个跨平台的赛车游戏模拟器，也可以作为强化学习的研究平台

官网：http://torcs.sourceforge.net/

gym_torcs是一个TORCS 的强化学习环境，提供类似前面OpenAI Gym的接口

源码：https://github.com/ugo-nama-kun/gym_torcs

6、PySC2（StarCraft II）

DeepMind的AlphaGo把围棋搞定之后，业界开始将目光头像即时策略游戏，如StarCraft II(星际争霸II)。DeepMind和Blizzard合作出了个StarCraft II的研究平台，称为PySC2

官网：https://deepmind.com/blog/deepmind-and-blizzard-open-starcraft-ii-ai-research-environment/

论文：https://deepmind.com/documents/110/sc2le.pdf

源码：https://github.com/deepmind/pysc2

博客等级

码龄7年

793
原创

264
点赞

1158
收藏

370
粉丝

关注

私信

分类专栏

展开全部收起

最新评论

基于文本挖掘的企业隐患排查质量分析模型
Yini_Xi: 您好，现在网站已经打不开了，能分享一下数据源吗？我想自己试试看，谢谢
GGNN(Gated Graph Sequence Neural Networks)
LuLuYao9494: 论文里面说了，是为了output sequence，输出不一样。看源论文比较好
《程序员代码面试指南第二版》Python实现（个人读书笔记）
tianqi911: 我靠神人呀。怎么评论怎么少？？？好厉害呀。自己能写出来这些代码，太NB了。
爬取热搜电影数据及Pycharts数据分析
BUPT-WT: x轴全显示 bar = (Bar() .add_xaxis(list(salary_df_top15['薪水'])) .add_yaxis('', list(salary_df_top15['数量'])) .set_global_opts( xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate":45}), yaxis_opts=opts.AxisOpts(name='薪资分布'), title_opts=opts.TitleOpts(title="大数据岗位薪资分布(top15)")) ) bar.render_notebook()
python plt画图不显示中文
BUPT-WT: import matplotlib.pyplot as plt

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。