让AI学习如何玩游戏 OpenAI打造强化学习通用模型

最新推荐文章于 2024-06-03 13:39:34 发布

weixin_34258078

最新推荐文章于 2024-06-03 13:39:34 发布

阅读量858

点赞数

文章标签：人工智能

原文链接：https://juejin.im/post/5c0e10c7e51d4534655d928e

版权

过度学习是许多AI模型的问题，要开发出通用型AI，就必须解决这道难题，OpenAI近日释出一个特别的训练环境CoinRun，该平台藉由游戏设计，能够提供指针，让程序将过去学习到的经验，转移到全新环境中。

OpenAI近日释出一个特别的训练环境CoinRun，该平台藉由游戏设计，能够提供关键的量化指针，让程序将过去学习到的经验，转移到全新环境中，也解决了强化学习长久以来的难题，CoinRun的环境比起传统的游戏平台简单许多，像是音速小子（Sonic the Hedgehog），但是却保有丰富且广泛的挑战，提供给最新的算法程序来解决。

打造出适用于不同任务的通用模型，对现今的深度强化学习算法，还是一大难题，虽然受过训练的程序可以解决复杂的任务，但是换到新的环境时，该程序就会面临转移经验的挑战，尤其强化学习程序常常会有过度学习（overfittng）的问题，模型学习成果贴近训练数据，换成别的测试数据效果就会大打折扣，无法学习到通用的技能。

CoinRun模仿音速小子游戏平台，设计成让现有的算法容易被训练的环境，提供可量化的大量训练数据，CoinRun每个关卡的目标即是在有障碍物的环境中，收集硬币，如果程序代理人撞到障碍物，在游戏中就会死亡，唯一的奖励机制是收集硬币，且这项奖励机制是固定的，若程市代理人死亡、集满硬币，或是移动1,000步之后，该游戏关卡就会结束。

为了评估该模型的通用程度，OpenAI用常见的3层式卷积架构，OpenAI也称之为Nature-CNN，训练了9个程序代理人在CoinRun平台玩游戏，其中8个程序代理人在第100～16,000关卡中训练，另外一个程序代理人的训练，则是不限制任何关卡，因此，该程序代理人便不会看见同一个关卡两次，每个关卡对该代理人而言，都是全新的环境，程序代理人是透过近端策略优化（Proximal Policy Optimization，PPO）算法来训练，在固定关卡学习的程序，每个关卡会玩成千上万次，而不固定训练关卡的程序，每个关卡只会玩一次。

OpenAI收集了单独训练的AI程序表现结果，在少于4,000个关卡的训练配置中，该程序出现过度学习的问题，超过16,000个关卡，问题依旧存在，接着，OpenAI利用CoinRun固定的500个关卡来训练AI程序，发现透过多项正规化技术，可以改善训练结果，像是Dropout和L2正规化、数据扩增和环境随机性。

除此之外，OpenAI也开发了另外2个环境来研究过度学习的问题，分别是CoinRun的变化版CoinRun-Platforms和简单迷宫导航环境RandomMazes，在这些实验中，研究人员采用原本的IMPALA-CNN架构，透过长短期记忆模型（long short-term memory，LSTM）来进行实验，在CoinRun-Platforms的环境中，AI程序要在1,000步的时间限制内收集硬币，硬币随机分散在不同的关卡中，因此，程序必须积积极探索。

OpenAI表示，该研究成果提供打造强化学习通用模型更多研究方向，透过CoinRun环境，精准地量化过度学习的问题，有了这项指标后，研究人员可以更准确地评估，要用哪个架构和算法，OpenAI也提出几个建议的未来研究方向，像是研究环境复杂度和关卡数的关系、重复的架构对通用型AI是否合适、探索多种正规化组合最有效的方法。

文章转自：胜博发有你

转载于:https://juejin.im/post/5c0e10c7e51d4534655d928e

weixin_34258078

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
让AI学习如何玩游戏 OpenAI打造强化学习通用模型

过度学习是许多AI模型的问题，要开发出通用型AI，就必须解决这道难题，OpenAI近日释出一个特别的训练环境CoinRun，该平台藉由游戏设计，能够提供指针，让程序将过去学习到的经验，转移到全新环境中。OpenAI近日释出一个特别的训练环境CoinRun，该平台藉由游戏设计，能够提供关键的量化指针，让程序将过去学习到的经验，转移到全新环境中，也解决了强化学习长久以来的难题，CoinRun的环境...
复制链接

扫一扫