0. Agents, Environments, and Rewards
在过去几年中,人工智能研究人员发表的许多主要公告都是一门称为强化学习(RL)的学科。 最近的突破主要是由经典RL创意的微小转折所驱动,这得益于强大的计算硬件和利用所述硬件的软件的可用性。
为了了解现代深度RL模型对于计算的饥饿程度,下表是最近RL进展的非详尽集合以及完成每项任务所需的计算资源的估计。
请注意,上表中的任务都经过模拟训练(即使是灵巧的机器人手),并且在大多数情况下,这是所需训练时间易于处理的唯一方法。对于像自动驾驶汽车这样的实际应用来说,这可能会变得特别棘手 - 稍后会更多关于该主题。
随着RL代理人在日益复杂的环境中解决任务,他们成为维度诅咒的牺牲品。这种复杂性的组合爆炸解释了像Dota Five这样的团队游戏机器人需要在数天内每天训练900年才能在非常有能力的硬件上击败顶级人类玩家。即使有像OpenAI用于Dota Five的那些可笑的计算资源,特别是深RL也有许多棘手的问题,这些问题最多只能使训练效率低下,而且最坏的情况是,许多问题基本上是难以处理的。
值得注意的是