让人工智能学习增强好奇心 玩游戏分数超越人类

OpenAI利用RND(Random Network Distillation)技术,使AI在无需人类指导的情况下,首次在游戏蒙特祖马的复仇中超越人类平均成绩,完全探索24个房间并完成第一关。这项技术通过好奇心驱动AI探索环境,克服了传统DQN算法在该游戏中的局限。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

OpenAI发表了RNDRandom Network Distillation),以基于预测的方法,透过好奇心带领增强学习代理人探索环境。OpenAI提到,这是首次人工智能游玩「蒙特祖马的复仇」(Montezumas Revenge)这款游戏,能够超过人类的平均表现,而且不需要人类示范,就能完成第一关。

OpenAI提到,要让人工智能代理人实现默认的目标,必须要使其探索环境中可能存在的内容以及完成目标的元素。不少游戏的奖励讯号都提供了一个课程(Curriculum),只要简单的探索策略就可以实现游戏目标,而之所以「蒙特祖马的复仇」对于人工智能是一个重要的指标,是因为在应用DQN算法中,「蒙特祖马的复仇」是唯一一款远低于人类平均得分的游戏,只使用简单的探索策略,是无法在游戏中收集到任何奖励的,或是仅能探索游戏世界24个房间的一小部分。

2016年,OpenAI透过将DQN结合基于计数的探索奖励,而使整体结果大幅前进,让人工智能代理人可以探索15个房间,最高获得6.6K的分数,平均达3.7K,但从那之后,增强学习代理所获得明显的分数改进,都来自于人类专家的展示或是存取仿真器的基础状态。

RND的发展,再次大幅推进了成果,让人工智能游玩「蒙特祖马的复仇」的分数正式超过人类,而且还能完整探索24个房间。OpenAI1,024Workers进行了大规模的RND实验,在9次的实验中平均分数达10K,最佳平均值达14.5K,每次实验都能发现2022个房间。另外,OpenAI还进行了一个较小规模但时间较长的实验,人工智能最佳分数达17.5K,通过第一级关卡并且探索完24个房间,OpenAI提到,好奇心驱使人工智能代理人发现新房间,并找到提高游戏分数的方法。

这个好奇心的机制,OpenAI使用之前与柏克莱大学一同研发基于预测的奖励方法,代理人从经验中学习下一个状态的预测模型,并使用预测误差作为内在奖励。Google在不久前,发表了基于情境记忆模型,以提供增强学习获得类似好奇心的奖励以探索环境,扩展增强学习可以解决问题的范围,Google提到,基于预测的内在奖励机制,有机会让代理人产生自我放纵获取实时满足感的现象。

OpenAI特别解释,虽然基于预测的好奇心模型,在Unity的仿真迷宫中,的确会在电视机关中发生问题,透过不停预测随机的电视频道以获得高内在奖励,但是该算法应用在「蒙特祖马的复仇」这类大型确定性的环境仍是没有问题的,好奇心会驱使代理人发现新房间,并且与物体互动。
文章截自:http://www.gloryhome.org.tw/post.asp

转载于:https://my.oschina.net/u/3906919/blog/2872540

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值