深度强化学习(deep reinforcement learning,DRL)是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学习。深度强化学习的出现使得强化学习技术真正走向实用,得以解决现实场景中的复杂问题。深度强化学习被认为是通往通用人工智能圣杯的必经之路。但是,事实如何呢?
现在,我们刚进入 2020 年,我想看看 2019 年人工智能进展怎么样了。特别是深度强化学习(Deep Reinforcement Learning,Deep RL),已经被炒作是通往通用人工智能(Artificial General Intelligence,AGI)的下一个关键阶段,通用人工智能是一种计算机算法,可以像人类一样学习做任何事情。
几年来,研究人员一直在致力于深度强化学习的研究,取得了渐进性进展。围绕深度强化学习的想法和希望是,你可以轻松地训练智能体去做理论上的任何事情,比如开车、叠衣服、玩电子游戏、打扫房间、解魔方等等,而所有这些都不需要掌握学习过程。其中一些实验已经取得了一定的成功,你可以教会深度强化学习智能体玩一些电子游戏和棋类游戏,但是将深度强化学习的任何成果转移到现实世界的生产系统中,却无一例外都失败了。截止目前,2020 年 1 月,我仍然不知道有哪一个生产系统使用了深度强化学习。
深度强化学习系统有很多问题,在本文中,有关这些问题的细节我不打算赘述,因为有很多博文已经讨论了这些问题。
深度强化学习存在什么问题?
如果这些问题中,哪怕只得到了一点点改善或者解决,比如,找到更抽象的方法来表示神经网络内部的信息,我并不会为此感到震惊,但是,如果不能解决那些我认为是核心问题,也没有关系:手动奖励函数(工程)。在深度强化学习中,我想说的是,大部分时间都花在了设计你的奖励函数上,以便让你的智能体能够做你想做的事情。用更传统的机器学习术语来说,奖励函数就是一个目标函数,算法使用这个函数来判断它是否朝着正确的方向前进,获得的奖励越多,模型就越“好”。
例如,教会机械臂叠衣服,假设你有一堆裤子,你该如何写一个奖励函数来正确地叠衣服呢?当你向另一个人描述这一点听起来很容易,不过是“把这堆裤子叠整齐了”。但是,计算机根本就不理解这些规则是什么意思。对于每个实验,你必须用一种计算机能够自己衡量进展的方式来设计你的奖励函数,而不需要知道它实际在做什么。因此,你可能会从机械臂触摸裤子开始奖励