让AI学习如何玩游戏 OpenAI打造强化学习通用模型

过度学习是许多AI模型的问题,要开发出通用型AI,就必须解决这道难题,OpenAI近日释出一个特别的训练环境CoinRun,该平台藉由游戏设计,能够提供指针,让程序将过去学习到的经验,转移到全新环境中。

OpenAI近日释出一个特别的训练环境CoinRun,该平台藉由游戏设计,能够提供关键的量化指针,让程序将过去学习到的经验,转移到全新环境中,也解决了强化学习长久以来的难题,CoinRun的环境比起传统的游戏平台简单许多,像是音速小子(Sonic the Hedgehog),但是却保有丰富且广泛的挑战,提供给最新的算法程序来解决。

打造出适用于不同任务的通用模型,对现今的深度强化学习算法,还是一大难题,虽然受过训练的程序可以解决复杂的任务,但是换到新的环境时,该程序就会面临转移经验的挑战,尤其强化学习程序常常会有过度学习(overfittng)的问题,模型学习成果贴近训练数据,换成别的测试数据效果就会大打折扣,无法学习到通用的技能。

CoinRun模仿音速小子游戏平台,设计成让现有的算法容易被训练的环境,提供可量化的大量训练数据,CoinRun每个关卡的目标即是在有障碍物的环境中,收集硬币,如果程序代理人撞到障碍物,在游戏中就会死亡,唯一的奖励机制是收集硬币,且这项奖励机制是固定的,若程市代理人死亡、集满硬币,或是移动1,000步之后,该游戏关卡就会结束。

为了评估该模型的通用程度,OpenAI用常见的3层式卷积架构,OpenAI也称之为Nature-CNN,训练了9个程序代理人在CoinRun平台玩游戏,其中8个程序代理人在第100~16,000关卡中训练,另外一个程序代理人的训练,则是不限制任何关卡,因此,该程序代理人便不会看见同一个关卡两次,每个关卡对该代理人而言,都是全新的环境,程序代理人是透过近端策略优化(Proximal Policy Optimization,PPO)算法来训练,在固定关卡学习的程序,每个关卡会玩成千上万次,而不固定训练关卡的程序,每个关卡只会玩一次。

OpenAI收集了单独训练的AI程序表现结果,在少于4,000个关卡的训练配置中,该程序出现过度学习的问题,超过16,000个关卡,问题依旧存在,接着,OpenAI利用CoinRun固定的500个关卡来训练AI程序,发现透过多项正规化技术,可以改善训练结果,像是Dropout和L2正规化、数据扩增和环境随机性。

除此之外,OpenAI也开发了另外2个环境来研究过度学习的问题,分别是CoinRun的变化版CoinRun-Platforms和简单迷宫导航环境RandomMazes,在这些实验中,研究人员采用原本的IMPALA-CNN架构,透过长短期记忆模型(long short-term memory,LSTM)来进行实验,在CoinRun-Platforms的环境中,AI程序要在1,000步的时间限制内收集硬币,硬币随机分散在不同的关卡中,因此,程序必须积积极探索。

OpenAI表示,该研究成果提供打造强化学习通用模型更多研究方向,透过CoinRun环境,精准地量化过度学习的问题,有了这项指标后,研究人员可以更准确地评估,要用哪个架构和算法,OpenAI也提出几个建议的未来研究方向,像是研究环境复杂度和关卡数的关系、重复的架构对通用型AI是否合适、探索多种正规化组合最有效的方法。

文章转自:胜博发有你

转载于:https://juejin.im/post/5c0e10c7e51d4534655d928e

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值