深度强化学习为什么在实际当中用的很少？

最新推荐文章于 2024-05-09 16:32:54 发布

BBlue-Sky

最新推荐文章于 2024-05-09 16:32:54 发布

阅读量898

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_33813365/article/details/105178356

版权

深度强化学习虽然理论上能解决复杂问题，但在实际应用中面临奖励函数设计、环境适应性和扩展性等难题。尽管取得了一些游戏领域的成就，但将其应用于现实世界的生产系统尚未成功。目前的研究焦点仍停留在游戏等封闭环境中，距离通用人工智能还有很长的路要走。

摘要由CSDN通过智能技术生成

深度强化学习（deep reinforcement learning，DRL）是深度学习与强化学习相结合的产物，它集成了深度学习在视觉等感知问题上强大的理解能力，以及强化学习的决策能力，实现了端到端学习。深度强化学习的出现使得强化学习技术真正走向实用，得以解决现实场景中的复杂问题。深度强化学习被认为是通往通用人工智能圣杯的必经之路。但是，事实如何呢？

现在，我们刚进入 2020 年，我想看看 2019 年人工智能进展怎么样了。特别是深度强化学习（Deep Reinforcement Learning，Deep RL），已经被炒作是通往通用人工智能（Artificial General Intelligence，AGI）的下一个关键阶段，通用人工智能是一种计算机算法，可以像人类一样学习做任何事情。

几年来，研究人员一直在致力于深度强化学习的研究，取得了渐进性进展。围绕深度强化学习的想法和希望是，你可以轻松地训练智能体去做理论上的任何事情，比如开车、叠衣服、玩电子游戏、打扫房间、解魔方等等，而所有这些都不需要掌握学习过程。其中一些实验已经取得了一定的成功，你可以教会深度强化学习智能体玩一些电子游戏和棋类游戏，但是将深度强化学习的任何成果转移到现实世界的生产系统中，却无一例外都失败了。截止目前，2020 年 1 月，我仍然不知道有哪一个生产系统使用了深度强化学习。

深度强化学习系统有很多问题，在本文中，有关这些问题的细节我不打算赘述，因为有很多博文已经讨论了这些问题。

深度强化学习存在什么问题？

如果这些问题中，哪怕只得到了一点点改善或者解决，比如，找到更抽象的方法来表示神经网络内部的信息，我并不会为此感到震惊，但是，如果不能解决那些我认为是核心问题，也没有关系：手动奖励函数（工程）。在深度强化学习中，我想说的是，大部分时间都花在了设计你的奖励函数上，以便让你的智能体能够做你想做的事情。用更传统的机器学习术语来说，奖励函数就是一个目标函数，算法使用这个函数来判断它是否朝着正确的方向前进，获得的奖励越多，模型就越“好”。

例如，教会机械臂叠衣服，假设你有一堆裤子，你该如何写一个奖励函数来正确地叠衣服呢？当你向另一个人描述这一点听起来很容易，不过是“把这堆裤子叠整齐了”。但是，计算机根本就不理解这些规则是什么意思。对于每个实验，你必须用一种计算机能够自己衡量进展的方式来设计你的奖励函数，而不需要知道它实际在做什么。因此，你可能会从机械臂触摸裤子开始奖励