让人工智能增强学习力 扩展解决问题的范围

GoogleBrain、DeepMind和ETHZürich合作研发的情景记忆模型,为增强学习算法提供了类似好奇心的内在奖励机制,有效解决了现实世界中奖励稀疏的问题,使算法在探索未知环境时更具动力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

现实世界中奖励很少,因此多数的增强学习算法都努力的解决这种奖励稀疏性,而解决方式之一就是让人工智能自己创造奖励,Google Brain、DeepMind和ETHZürich合作发表了基于情景记忆的模型,能够提供增强学习获得类似好奇心的奖励以探索环境,这扩展了增强学习可以解决问题的范围。

增强学习现在是机器学习中热门的研究领域之一,当人工智能代理做了正确的事给予奖励,反之则给予惩罚。DeepMind以这种方式教DQN算法游玩Atari游戏,也让AlphaGoZero能与人类在围棋打得难分高下,OpenAI也是用增强学习训练Open Five游玩在线战斗竞技类游戏Dota 2。另外,Google也以增强学习教机器手臂以近似人的行为抓握物体。

Google提到,标准的增强学习算法有其问题,人工智能总会在回馈稀疏的环境中挣扎,而现实世界通常是这样的环境条件。以在大型迷宫寻找宝藏为例,当人们在迷宫中四处搜寻,但都没找到宝藏时,在缺乏寻得宝藏的正向回馈奖励下,如果都不继续坚持而直接放弃,则永远无法得知自己是否朝向正确的方向前进,而不会让人类在迷宫中原地打转的驱动力便是好奇心,激励人类朝向一个不熟悉的方向探索以追寻宝藏。

而Google Brain、DeepMind和ETHZürich最新的合作成果,是以基于情景记忆的模型提供代理人好奇心奖励,让代理人有动力继续探索环境,但是探索环境也并非终极目标,而只是达成原始任务的手段,完成任务仍然是最重要的事情,因此研究团队将模型提供的好奇心奖励添加到原始任务的稀疏奖励中,这样的结合使得奖励不再稀疏,标准增强学习能够从中获得良好学习的驱动力。这个好奇心方法扩展了增强学习可以解决问题的范围。

现实世界中奖励很少,因此多数的增强学习算法都努力的解决这种奖励稀疏性,而解决方式之一就是让人工智能自己创造奖励,Google Brain、DeepMind和ETHZürich合作发表了基于情景记忆的模型,能够提供增强学习获得类似好奇心的奖励以探索环境,这扩展了增强学习可以解决问题的范围。

增强学习现在是机器学习中热门的研究领域之一,当人工智能代理做了正确的事给予奖励,反之则给予惩罚。DeepMind以这种方式教DQN算法游玩Atari游戏,也让AlphaGoZero能与人类在围棋打得难分高下,OpenAI也是用增强学习训练Open Five游玩在线战斗竞技类游戏Dota 2。另外,Google也以增强学习教机器手臂以近似人的行为抓握物体。

Google提到,标准的增强学习算法有其问题,人工智能总会在回馈稀疏的环境中挣扎,而现实世界通常是这样的环境条件。以在大型迷宫寻找宝藏为例,当人们在迷宫中四处搜寻,但都没找到宝藏时,在缺乏寻得宝藏的正向回馈奖励下,如果都不继续坚持而直接放弃,则永远无法得知自己是否朝向正确的方向前进,而不会让人类在迷宫中原地打转的驱动力便是好奇心,激励人类朝向一个不熟悉的方向探索以追寻宝藏。

而Google Brain、DeepMind和ETHZürich最新的合作成果,是以基于情景记忆的模型提供代理人好奇心奖励,让代理人有动力继续探索环境,但是探索环境也并非终极目标,而只是达成原始任务的手段,完成任务仍然是最重要的事情,因此研究团队将模型提供的好奇心奖励添加到原始任务的稀疏奖励中,这样的结合使得奖励不再稀疏,标准增强学习能够从中获得良好学习的驱动力。这个好奇心方法扩展了增强学习可以解决问题的范围。
文章转自:http://www.sangha.tw/map.asp

转载于:https://my.oschina.net/u/3899617/blog/2254136

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值