深度学习2-OpenAI Gym

五百五。

已于 2023-01-14 14:25:59 修改

阅读量1k

点赞数 1

分类专栏：深度学习文章标签：深度学习 python 人工智能

于 2022-12-23 16:28:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/clayhell/article/details/128421126

版权

## OpenAI Gym

### 1.将智能体插入RL框架所需的高层次要求。

▪ 智能体：主动行动的人或物。实际上，智能体只是实现了某些策略的代码片段而已。这个策略根据观察决定每一个时间点执行什么动作。
▪ 环境：某些世界的模型，它在智能体外部，负责提供观察并给予奖励。而且环境会根据智能体的动作改变自己的状态。

### 2.基本、纯Python实现的随机RL智能体。

▪ NumPy：用于科学计算的库，它实现了矩阵运算和常用功能。
▪ OpenCV Python bindings：计算机视觉库，提供了许多图像处理的函数。
▪ Gym：RL框架，以统一的交互方式提供了各种各样的环境。
▪ PyTorch：灵活且有表现力的深度学习（Deep Learning，DL）库。第3章会提供它的速成课。
▪ PyTorch Ignite：基于PyTorch的高级工具库，用于减少样板代码。在第3章会有简短的介绍。完整的文档参见https://pytorch.org/ignite/。
▪ PTAN（https://github.com/Shmuma/ptan）：笔者创建的一个Gym的扩展开源软件，用来支持深度RL方法以及方便地创建构造块。所有用到的类将同源代码一起详细解释。

### 3.OpenAI Gym。

**Gym的主要目的是使用统一的接口来提供丰富的RL环境。**

▪ 在环境中允许执行的一系列动作。Gym同时支持离散动作和连续动作，以及它们的组合。
▪ 环境给智能体提供的观察的形状[1]和边界。
▪ 用来执行动作的step方法，它会返回当前的观察、奖励以及片段是否结束的指示。
▪ reset方法会

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
深度学习2-OpenAI Gym

rl
复制链接

扫一扫

专栏目录

五百五。 CSDN认证博客专家 CSDN认证企业博客

码龄5年

大连交通大学

177: 原创

104万+: 周排名

22万+: 总排名

21万+: 访问

: 等级

2123: 积分

245: 粉丝

289: 获赞

52: 评论

1517: 收藏

私信

关注

热门文章

分类专栏

Redis 7篇
QT 15篇
linux 1篇
游戏 1篇
c++入门 18篇
c++语言特性 23篇
算法基础 1篇
计算机基础 1篇
网络 2篇
c++面试 7篇
TCP/IP 7篇
OpenGL 1篇
docker 1篇
CMAKE 3篇
yolov5 2篇
设计模式 14篇
小白大牛漫话c++ 7篇
深度学习 45篇
牛客刷题 19篇
编程小技巧 1篇

最新评论

c++二叉树遍历
2303_81492929: preOrderIterative函数，得用啥定义啊
c++详解之右值引用
yslhk1982: 个人感觉main函数的有值引用部分： // 传递一个右值给 func() func(MyString("Hello, rvalue!")); 应该改为： func(MyString(move(str))); 否则虽然调用了右值引用的重载函数，但是重载函数没有调用到对象的右值构造函数上，还是调用MyString对象的左值引用的构造函数。个人见解，不一定对，望赐教！
学会吊打面试官之underedmap
阿J~: 很详细呀感谢老哥分享！
三次握手详解，全网最全
不独入寝可成梦: 第三次握手不是可以携带数据吗？
c++二叉树遍历
磁铁小破孩: 支持博主优质文章，讲解的非常详细，干货满满，通俗易懂，希望博主也能来我博客指导一番

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

五百五。 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。