OpenAI 教程小白也可搭建属于自己的(全程教学)

最新推荐文章于 2024-04-12 10:10:49 发布

唐城

最新推荐文章于 2024-04-12 10:10:49 发布

阅读量1.1k

点赞数 21

分类专栏：宇宙 AI征途唐城 | 未来已来文章标签：汇编开发语言人工智能 chatgpt python

本文链接：https://blog.csdn.net/qq_41570658/article/details/136619381

版权

英文版：https://gym.openai.com/docs

2016年 5 月 4日，OpenAI发布了人工智能研究工具集 OpenAI Gym。OpenAI Gym是一款用于研发和比较学习算法的工具包。它与很多数值计算库兼容，比如tensorflow和theano。现在支持的语言主要是python。

openai gym 是一个增强学习（reinforcement learning,RL）算法的测试床（testbed）。增强学习和有监督学习的评测不一样。有监督学习的评测工具是数据。只要提供一批有标注的数据18:34:13就能进行有监督学习的评测。增强学习的评测工具是环境。需要提供一个环境给 Agent 运行，才能评测 Agent 的策略的优劣。OpenAI Gym 是提供各种环境的开源工具包。

增强学习有几个基本概念：

(1) agent：智能体，也就是机器人，你的代码本身。

(2) environment：环境，也就是游戏本身，openai gym提供了多款游戏，也就是提供了多个环境。

(3) action：行动，比如玩超级玛丽，向上向下等动作。

(4) state：状态，每次智能体做出行动，环境会相应地做出反应，返回一个状态和奖励。

(5) reward：奖励：根据游戏规则的得分。智能体不知道怎么才能得分，它通过不断地尝试来理解游戏规则，比如它在这个状态做出向上的动作，得分，那么下一次它处于这个环境状态，就倾向于做出向上的动作。

OpenAI Gym由两部分组成：

gym开源库：测试问题的集合。当你测试增强学习的时候，测试问题就是环境，比如机器人玩游戏，环境的集合就是游戏的画面。这些环境有一个公共的接口，允许用户设计通用的算法。
OpenAI Gym服务。提供一个站点（比如对于游戏cartpole-v0：https://gym.openai.com/envs/CartPole-v0）和api，允许用户对他们的测试结果进行比较。

gym的代码在这上面：https://github.com/openai/gym

gym的核心接口是Env，作为统一的环境接口。Env包含下面几个核心方法：

1、reset(self):重置环境的状态，返回观察。

2、step(self,action):推进一个时间步长，返回observation，reward，done，info

3、render(self,mode=’human’,close=False):重绘环境的一帧。默认模式一般比较友好，如弹出一个窗口。

安装

1.Linux(没试过)：

apt-get install -y python-numpy python-dev cmake zlib1g-dev libjpeg-dev xvfb libav-tools xorg-dev python-opengl libboost-all-dev libsdl2-dev swig

　　2.Windows（有两种方法）：

（1）使用pip

最低0.47元/天解锁文章

唐城

关注

21
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

OpenAI 教程 小白也可搭建属于自己的(全程教学)

安装

OpenAI 教程小白也可搭建属于自己的(全程教学)