深度强化学习中的并发控制:让机器人更流畅地行动
本文介绍了一种新的深度强化学习方法,名为“边思考边行动”(Thinking While Moving),它能够让机器人更加流畅地行动,避免传统方法中出现的卡顿现象。
问题: 传统强化学习中,机器人通常会经历“观察-思考-行动”的循环。机器人先观察环境,然后思考下一步行动,最后执行行动。这种方法会导致机器人行动时出现明显的停顿,因为观察、思考和执行都需要时间。
解决方案: “边思考边行动”方法通过并发控制,将观察、思考和执行并行进行。机器人不再完全停止,而是边执行上一步行动,边观察环境并思考下一步行动。当新的行动计算完成时,机器人会立即执行,从而实现更流畅的行动。
具体实现: 该方法将传统强化学习中的“代理-环境”二元结构进行改造,将代理的“观察-思考-行动”过程拆分成三个并行的步骤:
- 观察: 环境将观测结果(例如摄像头图像)发送给代理。
- 思考: 代理基于观测结果,通过策略计算下一步行动。
- 行动: 代理将计算得到的行动发送给环境,环境执行行动并改变状态。
传统方法中,这三个步骤是串行的,而“边思考边行动”方法将它们并行化,在执行上一步行动的同时进行观察和思考,从而避免卡顿现象。
优势: 这种方法可以让机器人更有效率地行动,并更接近于人类的自然运动方式。它为机器人应用于现实世界提供了新的可能性,例如在复杂环境中进行导航、与人互动等。
未来展望: 该方法的提出为深度强化学习研究开辟了新的方向,未来可以进一步探索并发控制在其他强化学习问题中的应用,例如多智能体协作、连续控制等。
经典强化学习在智能体计算新的动作时会“暂停”世界。本文考虑了一种更现实的场景,在这种场景中,智能体在执行上一个动作的同时,会思考下一步要采取的动作。这导致了一种将 Q 学习重新表述为连续时间的方式,然后引入并发性,最后回到离散时间。https://arxiv.org/abs/2004.06089摘要:我们研究了在以下环境中的强化学习:从策略中采样动作必须与受控系统的时态演化同时进行,例如,当机器人必须在执行上一个动作的同时决定下一个动作时。就像人或动物一样,机器人必须同时思考和移动,在完成上一个动作之前决定下一个动作。为了开发针对此类并发控制问题的算法框架,我们从贝尔曼方程的连续时间公式开始,然后以一种考虑系统延迟的方式对其进行离散化。我们通过对现有的基于价值的深度强化学习算法进行简单的架构扩展,实例化了这种新型近似动态规划方法。我们在模拟基准任务和一个大型机器人抓取任务中评估了我们的方法,在该任务中,机器人必须“边移动边思考”。