【CMU博士论文】因果机器人操作学习

027dfc2d47dd89c4625a0de40d4b56cb.png

来源:专知
本文约1000字,建议阅读5分钟
本论文探索了从感知到控制的多种机器人学习问题。

89acc69ed0aed1a6bc91d86a5655584b.png

进入人工智能的第三个时代已有二十年,深度学习的兴起带来了两种看似截然不同的现实。在其中一种现实中,深度强化学习、蛋白质折叠和大语言模型等领域取得了巨大成就。然而,在另一种现实中,深度学习赋予机器人在现实环境中可靠操作的承诺仍未兑现。物体的多样性、分布转变和长尾现象:在实验室之外,现实环境对现代统计学习的数据假设提出了挑战。

尽管此类环境通常被称为“非结构化”,但这种术语掩盖了它们的本质。现实环境并非“非结构化”,而是由于结构的存在而产生:生成观察数据的潜在因果过程。从这个角度看,机器人不仅应依据数据进行推理和学习,还应理解数据生成过程。这些过程可以通过因果关系的语言形式化。因此,为了学习和利用这些“开放世界”环境的结构,需要新的基于因果关系的机器人学习算法。

为实现这一目标,本论文探索了从感知到控制的多种机器人学习问题。首先,我们探讨了如何使用从合成数据到现实数据的转移(如DREAM和FormNet)来学习感知模型。在这些工作中,通过域随机化学习到了相关特征,从而深入了解了如何更直接地使用因果关系来学习结构。为此,我们引入了结构性从模拟到现实的转移,在这种情况下,模拟可以作为因果推理引擎,帮助机器人选择控制策略(如CREST)或技能(如SCALE)的相关特征。通过这种构造,这些策略对无关的分布转变具有鲁棒性,而这些分布转变通常会阻碍基于相关性的深度学习。接下来,通过Learning By Doing(LBD)竞赛和LMeshNet方法,我们探讨了控制、动力系统和因果关系之间的丰富互动,构建了整合潜在信息和语义信息的混合因果世界模型。最后,我们研究了课程学习。在ACL中,我们探讨了人类和代理课程学习的共性和差异。然后,我们运用这些经验教训来进行CURATE:代理如何操纵训练数据的顺序,以有效学习解决特定困难任务的控制策略。

因果推理原则在生物医学科学、经济学和基因组学等领域的优势已有目共睹。在机器学习领域,最近有人提出应整合这些原则以利用深度学习,实现因果表示学习。类似地,本论文提出机器人学习领域通过利用因果关系原则也能受益。通过这样做,这一新范式有望使机器人通过因果机器人学习实现操控,从而在开放世界中学习和利用结构。

https://www.ri.cmu.edu/publications/causal-robot-learning-for-manipulation/

69d1218f16441d6e953a2ba0ba62f741.png

d376f6d69313018e0216cb034b607ddb.png

4dad4c6f0ec7d67abdef57dbf7292101.png

b9c273e1ad880f8d3aa2b8cca7292f85.png

4733fb2d1cac1366c3627fa3bf08affa.png

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

6c6a91094a3fb6ba80089011a65e4e92.png

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值