让AI学习玩游戏 不需人类示范就得最高分

在AI玩游戏的研究中,Atari发行的「蒙特祖马的复仇」(Montezuma’s Revenge)和「陷阱」(Pitfall)一直都被公认为AI难以突破的最难游戏,这两款游戏中都体现了真实世界问题的挑战,这种问题被称为探索问题(Hard-exploration problem),而Uber的AI实验室最近发表新型机器学习算法Go-Explore,不需要人类的示范,该AI程序创下高分的超人类表现,在蒙特祖马的复仇这款游戏中,AI程序最高获得超过2,000,000分,超越人类玩家最高记录分数,而平均也拿下超过400,000分,并突破到第159关,在陷阱这款游戏中,AI程序则是获得平均21,000分,远远超越人类玩家的平均表现。

与其他AI程序不同,Go-Explore并没有用人类的示范作为训练资料,而是从人类的专业知识中学习,该算法与其他深度学习算法有很大的不同,Uber认为,该算法能够在多种具有不同挑战的问题中,获得很大的进展,特别是在机器人的开发上。

蒙特祖马复仇游戏中的探索问题挑战在于,程序必须在很少的奖励讯号,或是具有混淆性的回馈机制中,学习复杂的任务,由于只有非常少量的回馈讯号,随机的行为很难产生有效的回馈,也使得程序难以在执行中自我学习,而在陷阱游戏中,甚至,有些回馈是令人混淆的,导致程序学习到错误的行为,因为许多行为会导致小的负面回馈,像是打敌人,因此程序就学习到不要采取行动,因而永远无法收集到珍贵的宝物,这些情况其实正是在真实世界中的问题。

为了解决这类型的挑战,现有深度学习算法会加入内在动机(intrinsic motivation)机制,在程序进阶到新的状况或是到达新的位置时,给予奖励,但是这样的方式对于探索还是有所限制,举例来说,当给AI程序在2个迷宫探索时,一开始程序选择了其中一个迷宫的入口,进入迷宫开始探索后,会因为不断更新位置得到奖励,但是程序完成一个迷宫的探索之后,对于一开始放弃另一个迷宫的行为并没有明确的记忆,更糟的是,前往另一个迷宫的路径已经被认定为探索过的位置,因此,由于不会获得奖励,AI程序不太可能重新探索该区域。

Go-Explore将学习分为2个阶段,包含探索和稳固(robustification),第一阶段系统进行探索时,会同时记录探索的路径,并往返可能的区域进行探索,检查是否有助于提供更好的效果,Go-Explore试图探索所有可能到达的区域,因此不容易受到混淆回馈机制影响,第二阶段则是透过模仿学习找出最佳穿越路径。Uber研究团队表示,这项研究成果解决了探索增强学习的问题,也开启了许多研究方向,包含用不同的方式记录探索路径、挑选往返探索位置的方法、不同的探索方式等。

日前DeepMind和OpenAI也有发布用AI程序玩蒙特祖马复仇的研究成果,DeepMind是利用模仿学习(Imitation Learning)来让AI程序学习玩游戏,OpenAI则是从人类游戏示范中挑选一段适当的状态,使用近端政策优化(Proximal Policy Optimization,PPO)的增强学习来学习游戏。
文章转自:胜博发爱心

转载于:https://my.oschina.net/u/3885866/blog/2963051

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值