【CMU博士论文】因果机器人操作学习-CSDN博客

来源：专知
本文约1000字，建议阅读5分钟
本论文探索了从感知到控制的多种机器人学习问题。

进入人工智能的第三个时代已有二十年，深度学习的兴起带来了两种看似截然不同的现实。在其中一种现实中，深度强化学习、蛋白质折叠和大语言模型等领域取得了巨大成就。然而，在另一种现实中，深度学习赋予机器人在现实环境中可靠操作的承诺仍未兑现。物体的多样性、分布转变和长尾现象：在实验室之外，现实环境对现代统计学习的数据假设提出了挑战。

尽管此类环境通常被称为“非结构化”，但这种术语掩盖了它们的本质。现实环境并非“非结构化”，而是由于结构的存在而产生：生成观察数据的潜在因果过程。从这个角度看，机器人不仅应依据数据进行推理和学习，还应理解数据生成过程。这些过程可以通过因果关系的语言形式化。因此，为了学习和利用这些“开放世界”环境的结构，需要新的基于因果关系的机器人学习算法。

为实现这一目标，本论文探索了从感知到控制的多种机器人学习问题。首先，我们探讨了如何使用从合成数据到现实数据的转移（如DREAM和FormNet）来学习感知模型。在这些工作中，通过域随机化学习到了相关特征，从而深入了解了如何更直接地使用因果关系来学习结构。为此，我们引入了结构性从模拟到现实的转移，在这种情况下，模拟可以作为因果推理引擎，帮助机器人选择控制策略（如CREST）或技能（如SCALE）的相关特征。通过这种构造，这些策略对无关的分布转变具有鲁棒性，而这些分布转变通常会阻碍基于相关性的深度学习。接下来，通过Learning By Doing（LBD）竞赛和LMeshNet方法，我们探讨了控制、动力系统和因果关系之间的丰富互动，构建了整合潜在信息和语义信息的混合因果世界模型。最后，我们研究了课程学习。在ACL中，我们探讨了人类和代理课程学习的共性和差异。然后，我们运用这些经验教训来进行CURATE：代理如何操纵训练数据的顺序，以有效学习解决特定困难任务的控制策略。

因果推理原则在生物医学科学、经济学和基因组学等领域的优势已有目共睹。在机器学习领域，最近有人提出应整合这些原则以利用深度学习，实现因果表示学习。类似地，本论文提出机器人学习领域通过利用因果关系原则也能受益。通过这样做，这一新范式有望使机器人通过因果机器人学习实现操控，从而在开放世界中学习和利用结构。

https://www.ri.cmu.edu/publications/causal-robot-learning-for-manipulation/