这款超火的游戏,AI只用4小时,就秀出了人类花1年才能达到的水平

萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

操控一辆赛车,在空中带球射门,需要练习多长时间?

通常来说,一名普通玩家要达成这样的水平,至少要练习上一年时间。

这是一款国外很火的游戏《火箭联盟》 (Rocket League),玩家会操作一辆赛车,利用各种办法将球“踢”进门。

然而,现在已经有人开发出了一个基于深度强化学习的赛车游戏环境RoboLeague。通过环境训练的赛车,不仅能看准时机射门:

还在4小时的训练后,就能长时间颠球,保证车和球都不落地:

这个RoboLeague,一下子在Reddit炸出了2.7k的热度。

有网友调侃,看到这些比自己玩得好的“AI选手”,总会让他感觉很挫败。

那么,这个赛车游戏环境,究竟优秀在哪里?

比已有的游戏环境更好用

事实上,这并不是第一个基于《火箭联盟》做出的游戏环境。

有网友很快指出,此前已有支持用自定义赛车玩《火箭联盟》的RLBot,效果挺不错。

在RLBot中,同样允许玩家用自己编写的代码来控制赛车。

而且,玩家能通过游戏场景的反馈,对代码进行反复调试,最终做出想要的机器人赛车。

事实上,作者在训练强化学习模型前,并非没有考虑过RLBot。

毕竟,这个框架支持各种语言,让玩家能编写出想要的机器人赛车。

然而,在尝试过RLBot后,作者还是决定基于Unity引擎,自己开发一个游戏环境。

主要有3点原因:

  • 基于Unity引擎打造的环境,能够自己创建想要的游戏场景。

  • 此外,在RLBot中,基于实时数据训练AI模型的速度,其实并不快。而如果游戏再大点,在RLBot中训练可能就会出现问题了。

  • 自己创建的游戏环境,可以并行训练游戏中的多个实例。相比之下,RLBot基于《火箭联盟》搭建,只能同时玩1场游戏,无法并行训练。

那么,在RoboLeague环境中,如何训练出这样一个“聪明的”智能体?

基于强化学习,训练出智能体

在训练之前,先来了解一下,《火箭联盟》中大致有些什么规则,玩家又是怎么射门的。

整体来说,这是一个玩家通过控制赛车,来进球射门的游戏。

其中,这里面的赛车和球,符合一些物理规则:

球具有弹性,可以从地面/墙壁反弹、受摩擦力和重力影响
赛车在地面可以加速制动,在空中的控制也符合物理条件
赛车的轮子具有某种黏力,可以在墙壁上运动不脱落下来

而《火箭联盟》中的一些高级玩家,通常会想办法让自己和球不落地,完成空中带球射门。

但要达到这样的水平,不仅要对场地有足够的了解,操作水平也必须在线。

这其中,作者利用了强化学习中的“奖励机制”,来告诉智能体应该怎么做。

智能体并不需要基于先验知识完成操作,而会通过尝试各种随机行为,试图达成“奖励机制”的要求。

而作者给出的唯一一个奖励机制,就是保证赛车和球不落地,即“活着”。

因为只要不落地,空中带球的条件就完成了大半。

在反复尝试后,智能体发现,只要让赛车尽可能垂直竖在空中,同时保持颠球的稳定,就能保证“活着”。

也正是在这样的奖励机制下,只用4个小时(约50M次运行),赛车就完成了自己的目标。

如果想要让智能体完成更复杂的任务,如空中带球射门等,也只需要找到对应的奖励机制,利用强化学习训练就能达成。

目前,作者已经将RoboLeague开源。

也就是说,如果你想要训练出符合自己要求的深度强化学习模型,那么用这个游戏环境,就能进行训练。

关于作者

作者@Roboserg,并未透露自己的真实姓名,不过此前,他已经做出了很多利用强化学习训练出来的小型游戏实验。

例如,在各种球的撞击下保持平衡的飞机:

又或者,两个球之间的“足球”比赛:

据作者透露,他接下来还会计划开发一款穿越飞环的游戏。

这款游戏会训练智能体穿过飞环,真正做到和大神玩家的操作无异。

说不定,作者甚至真能用强化学习,训练出一整个网站的小游戏来?

源代码:
https://github.com/roboserg/RoboLeague

参考链接:
https://www.reddit.com/r/MachineLearning/comments/klbvaw/p_doing_a_clone_of_rocket_league_for_ai/
https://rlbot.org/
https://unity.com/cn/products/machine-learning-agents

—  —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

AI落地最佳参考!

2020中国人工智能年度评选结果揭晓

12月16日,量子位MEET 2021智能未来大会现场,50大领航企业、10大明星创业公司、30大商业领军人物、10大最佳产品、10大最佳解决方案、5大社会责任榜样、5大最佳技术社区等年度奖项悉数颁出。

点击图片查看完整榜单:

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值