关于面向机器人操作的世界模型的一点思考

作者 | 东林钟声  编辑 | 汽车人

原文链接:https://zhuanlan.zhihu.com/p/684162092

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心世界模型技术交流群

本文只做学术分享,如有侵权,联系删文

最近世界模型的火热似乎能在机器人操作中起到一些至关重要的作用。而对于具身智能来说,现阶段manipulation是最需要突破的点。特别是针对以下long horizon的任务,如何构建机器人“小脑”,来实现各种复杂的操作要求,是当下最需要解决的问题。

是否需要通过拆分skill为原子操作?

在把LLM应用在机器人上时,比较常用的做法是把各种API提供在context里面,然后让LLM根据任务prompt自动编写planning代码,可以参考文章:

这种方法优点是非常直观,可以比较清晰地把握任务的拆解逻辑,比如移动到A,抓起B,移动到C,放下B。但是这种操作的前提是能够把整个任务拆分成原子操作(移动、抓取、放置等)。但是如果是一些比较复杂的任务,比如叠衣服这种任务,其是天然难以进行任务拆分的,那这个时候应该怎么办?其实对于manipulation来说,我们大量面对的应该是这种long horizon且难以进行拆分的任务

a251e178dca3a2d0dbcc012ed0087f71.png

世界模型可以作为关键突破点

针对long horizon且难以进行拆分的manipulation任务,比较好的处理方法是研究模仿学习,比如diffusion policy或者ACT这种,对整个操作trajectory进行建模拟合。但是这种方法都会遇到一个问题,就是没有办法很好的处理累积误差——而这个问题的本质就是缺乏一套有效地反馈机制

还是以叠衣服为例,人在叠衣服的时候,其实会根据视觉获取的衣服变化,不断地调整操作策略,最终将衣服叠到想要的样子。那这个里面其实有一个比较隐含但是非常重要的点:人大概知道什么样的操作,会导致衣物发生什么样的变化。那么进一步,就是人其实具备一个关于衣物变形的模型,能够大概知道什么样的输入,会导致状态(衣物摆放)的变化(视觉层面就是像素级别),更加具体的可以表示为:

ec31a9d0d2e0bf2d244a068b4268753b.png

SORA其实给了一剂强心针,就是只要数据够多,我能用transformer+diffusion layer,硬train一个可以理解并预测变化的模型f。假设我们已经有了一个非常强的预测衣物随操作变化的模型f,那这个时候叠衣服就可以通过像素级别的衣物状态反馈,通过Model Predictive Control的思路,构建一个视觉伺服(Visual Servo)的策略,将衣服叠到我们想要的状态。这一点其实在LeCun最近的一些“暴论”上也得到了验证:

b3b8489060733fee89c4698792710b04.png

如何构建面向机器人操作的世界模型

a2fbd6a88dfd4e1fa2b0a20aa112e618.png

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

39b38611df986f349b1dda42e61199cc.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

6921c6e4e8fc01dabe74b964f696bb47.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!

自动驾驶感知:目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群;

多传感器标定:相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群;

多传感器融合:多传感器后融合技术交流群;

规划控制与预测:规划控制、轨迹预测、避障等技术交流群;

定位建图:视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群;

三维视觉:三维重建、NeRF、3D Gaussian Splatting技术交流群;

自动驾驶仿真:Carla仿真、Autoware仿真等技术交流群;

自动驾驶开发:自动驾驶开发、ROS等技术交流群;

其它方向:自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群;

扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

1aeeff7b32acfc152e7a14e1c9b7e225.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

23ef942a2751a1d4cb94343ee201053d.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值