强化学习算法回顾 Q-learning 玩 OpenAI 的 Taxi 游戏

AI 研习社

于 2020-07-07 15:25:17 发布

阅读量1.5k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42793029/article/details/107182427

版权

本文介绍了如何使用Q-learning算法训练智能体在OpenAI的Taxi-v3环境中进行游戏。通过安装依赖、创建环境、初始化Q表、设置超参数和实现Q-learning算法，经过大约50,000局的游戏训练，智能体能够达到较好的表现。" 97674376,8482457,Pandas数据处理：分组聚合与透视表,"['数据分析', 'Pandas', '数据处理']

摘要由CSDN通过智能技术生成

本文首发作者 Ray906 发表于专栏 · AITrust

这里使用的是 OpenAI Taxi-V3 环境

这里有 4 个地点，分别用 4 个字母表示，任务是要从一个地点接上乘客，送到另外 3 个中的一个放下乘客，越快越好。截屏2020-07-05 下午1.41.40.png

成功运送一个客人获得 20 分奖励
每走一步损失 1 分（希望尽快送到目的地）
没有把客人放到指定的位置，损失 10 分
渲染图中显示，一共 R，G，B，Y 这 4 个地点，黄色的块是 taxi，其中 ":" 栅栏可以穿越，"|" 栅栏不能穿越
蓝色显示的就是有乘客的地方，红色显示的就是乘客的目的地
Step 0: 安装依赖
Step 1: 创建环境

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
强化学习算法回顾 Q-learning 玩 OpenAI 的 Taxi 游戏

本文首发作者 Ray906 发表于专栏 · AITrust这里使用的是 OpenAI Taxi-V3 环境这里有 4 个地点，分别用 4 个字母表示，任务是要从一个地点接上乘客，送到另外 3 个中的一个放下乘客，越快越好。成功运送一个客人获得 20 分奖励每走一步损失 1 分（希望尽快送到目的地）没有把客人放到指定的位置，损失 10 分渲染图中显示，一共 R，G，B，Y 这 4 个地点，黄色的块是 taxi，其中 ":" 栅栏可以穿越，"|"
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。