深度强化学习为什么在实际当中用的很少?

深度强化学习虽然理论上能解决复杂问题,但在实际应用中面临奖励函数设计、环境适应性和扩展性等难题。尽管取得了一些游戏领域的成就,但将其应用于现实世界的生产系统尚未成功。目前的研究焦点仍停留在游戏等封闭环境中,距离通用人工智能还有很长的路要走。
摘要由CSDN通过智能技术生成

深度强化学习(deep reinforcement learning,DRL)是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学习。深度强化学习的出现使得强化学习技术真正走向实用,得以解决现实场景中的复杂问题。深度强化学习被认为是通往通用人工智能圣杯的必经之路。但是,事实如何呢?

现在,我们刚进入 2020 年,我想看看 2019 年人工智能进展怎么样了。特别是深度强化学习(Deep Reinforcement Learning,Deep RL),已经被炒作是通往通用人工智能(Artificial General Intelligence,AGI)的下一个关键阶段,通用人工智能是一种计算机算法,可以像人类一样学习做任何事情。

几年来,研究人员一直在致力于深度强化学习的研究,取得了渐进性进展。围绕深度强化学习的想法和希望是,你可以轻松地训练智能体去做理论上的任何事情,比如开车、叠衣服、玩电子游戏、打扫房间、解魔方等等,而所有这些都不需要掌握学习过程。其中一些实验已经取得了一定的成功,你可以教会深度强化学习智能体玩一些电子游戏和棋类游戏,但是将深度强化学习的任何成果转移到现实世界的生产系统中,却无一例外都失败了。截止目前,2020 年 1 月,我仍然不知道有哪一个生产系统使用了深度强化学习。

深度强化学习系统有很多问题,在本文中,有关这些问题的细节我不打算赘述,因为有很多博文已经讨论了这些问题。

深度强化学习存在什么问题?

如果这些问题中,哪怕只得到了一点点改善或者解决,比如,找到更抽象的方法来表示神经网络内部的信息,我并不会为此感到震惊,但是,如果不能解决那些我认为是核心问题,也没有关系:手动奖励函数(工程)。在深度强化学习中,我想说的是,大部分时间都花在了设计你的奖励函数上,以便让你的智能体能够做你想做的事情。用更传统的机器学习术语来说,奖励函数就是一个目标函数,算法使用这个函数来判断它是否朝着正确的方向前进,获得的奖励越多,模型就越“好”。

例如,教会机械臂叠衣服,假设你有一堆裤子,你该如何写一个奖励函数来正确地叠衣服呢?当你向另一个人描述这一点听起来很容易,不过是“把这堆裤子叠整齐了”。但是,计算机根本就不理解这些规则是什么意思。对于每个实验,你必须用一种计算机能够自己衡量进展的方式来设计你的奖励函数,而不需要知道它实际在做什么。因此,你可能会从机械臂触摸裤子开始奖励

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值