开源最Solid的赛博机械臂!Robo-GS:机械臂与环境无缝交互

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心具身智能技术交流群

编辑 | 自动驾驶之心

🚨🤖 警报!机器人界的“血案”:特斯拉工厂惊现机械臂“暴走”事件 🚨

去年年末,一则“特斯拉机器人伤人事件”的微博引发了网友的广泛关注和热烈讨论。

📅 时间倒回2023年12月26日,英国小报《每日邮报》爆出猛料,标题惊悚:“特斯拉机器人在得克萨斯州工厂发生严重故障,一名工程师惨遭‘毒手’——现场留下‘血迹’,紧急关闭按钮被工人们火速按下!”😱

📜 但别急,这起事故实际上记录在2021年的特斯拉报告中,并非近期发生。文章中描述了两名目击者惊恐地目睹他们的同事被一台本应用于抓取和移动新铝制汽车零件的机器“袭击”。🏭

4cd8e4e42ae081902ea74243ff6d6a31.png cf8e8ab5678d629b04c03f35e3bee9da.png
根据澎湃新闻2024.1.10 https://www.thepaper.cn/newsDetail_forward_25951876

🤖 机器臂安全,警钟长鸣! 虽说这则网络新闻并非近期发生,但机器臂安全不容小觑。有了具身智能的加持后,或许能一定程度上防止工业机器人伤人事件。然而由于感知判断错误,以及机器臂网络重建误差依然有可能引起的工业事故。为了彻底规避“机械臂搬运零件时发生严重偏移,从而撞到检查设备的工人”这类事故,学者们对于机械臂控制以及机械臂网络重建精度的研究仍在努力探索中。

Real2Sim技术能刚好地帮助机械臂在工作时更好地控制“自己”。近期公开的Robo-GS采用混合表示模型,集成了网格几何、3D高斯核和物理属性,以增强机械臂的数字资产表示。这种混合表示通过高斯-网格-像素绑定技术实现,该技术在网格顶点和高斯模型之间建立了同构映射。这能够实现一个完全可微的渲染管道,该管道可以通过数值求解器进行优化,通过高斯展开实现高保真渲染,并使用基于网格的方法促进机械臂与其环境交互的物理合理模拟。该流程标准化了坐标系统和比例尺,确保了多个组件的无缝集成。除了重建机械臂外,还可以整体重建周围的静态背景和物体,从而实现机械臂与其环境之间的无缝交互。

该项成果还提供了涵盖各种机器人操作任务和机械臂网格重建的数据集,由网格、高斯溅射和真实世界运动的组合表示。这些数据集包括以数字资产形式捕获的现实世界运动,确保了质量和摩擦力的精确表示,这对于机器人操作至关重要。Real2Sim在机器人应用的真实渲染和网格重建质量方面达到了最先进的水平。

0afbc3d2f3cb269a9725ca275db3652b.jpeg

Robo-GS: A Physics Consistent Spatial-Temporal Model for Robotic Arm with Hybrid Representation    https://arxiv.org/abs/2408.14873

背景知识

看到这里想必大家有几个问题:什么是渲染?什么是高斯溅射?下面在开始正文之前,文章先来了解一些背景知识。

  • 什么是渲染?

渲染是指将三维场景(或模型)转换成二维图像的过程。这包括光照、阴影、纹理等效果的计算,以生成逼真的视觉效果。高保真渲染是指尽可能接近真实世界效果的渲染技术,包括光照、反射、折射等复杂物理现象的模拟。最常用的渲染方法之一就是利用三维场景重建技术,如高斯飞溅和神经辐射场(NeRF)。

  • 高斯飞溅技术如何进行三维场景重建?

首先,从多个视角获取场景的图像或深度数据,以及相应的相机参数。在图像中提取特征点(如SIFT、SURF等),并在不同视角间进行匹配,以建立空间中的对应关系。然后利用多视角几何原理(如三角测量)计算匹配特征点的三维坐标,形成初始的三维点云。对于点云中的每个点,根据其位置精度和可能的误差来源(如相机校准误差、匹配误差等),分配一个高斯分布。这个高斯分布的均值即为该点的三维坐标,协方差矩阵反映了该点位置的不确定性。最后,将所有点的高斯分布组合起来,形成一个连续的、概率性的三维场景表示。这个表示可以进一步用于各种应用,如场景可视化、路径规划、碰撞检测等。

  • 神经辐射场(NeRF)如何进行三维场景重建?

与传统的三维重建方法(如体素网格、点云等)不同,NeRF采用了一种连续的体积表示方式。这意味着它并不直接存储三维空间中每个点的颜色或密度,而是通过一个神经网络来“学习”这些属性的函数关系。NeRF的神经网络接收两个主要的输入:一是三维空间中的坐标点(x, y, z),它代表了场景中的位置;二是观察方向(θ, φ),它表示从哪个角度观察该点。网络的输出则是该点在给定观察方向下的颜色和体积密度(即该点被占据的可能性)。为了从神经辐射场中生成可视化的图像,NeRF采用了体积渲染技术。这一过程模拟了光线在三维场景中传播并与物质交互的过程。具体来说,它沿着从相机出发到图像平面上每个像素的光线进行采样,对于光线上的每个采样点,使用NeRF网络查询其颜色和密度。然后,根据这些颜色和密度值,以及光线在场景中的传播路径,计算出该像素的最终颜色。

NeRF的训练目标是最小化重建图像与真实图像之间的差异。这通常通过定义一个损失函数来实现,该损失函数计算了重建图像中每个像素的颜色与真实图像中对应像素颜色之间的误差。在训练过程中,通过反向传播算法来优化神经网络的参数,以最小化损失函数。这一过程通常涉及到大量的迭代计算,直到模型达到收敛状态。

这篇文章有什么特别之处?

在了解了以上背景知识后,文章可以进一步看看这篇文章相对于先前的研究有什么特别的贡献了。

  • 提出“同构网格-高斯绑定”,实现了机械臂各部分的联动建模

在传统的或经典的机械臂控制方法中,机械臂的每个连杆都是通过预定义的关节连接起来的。控制机械臂沿特定路径运动的主要方式是通过调整各个关节的角度,这种连接方式允许机械臂按照预设的路径运动。但在高斯设置(机械臂的运动或某些特性被建模为高斯分布或高斯过程)中,各个元素(机械臂的连杆、关节或运动参数)之间没有明确的联动定义。即,这些元素被视为彼此独立的,而不是像经典控制方法中那样通过关节相互连接。由于在高斯设置中各个元素之间的独立性,当尝试模拟或控制机械臂的运动时,可能会出现运动不一致的情况,机械臂的运动可能不符合实际的物理规律或预期的运动轨迹。

为此,文章引入了“同构网格-高斯绑定”的概念。同构网格提供了一个统一的框架,用于描述机械臂的整体形状和结构。而高斯绑定则允许文章在这个框架内为每个元素分配一个高斯分布或高斯过程,以模拟其运动特性或不确定性。通过这种方式,文章能够在保持各个元素独立性的同时,实现它们之间的协调和联动,从而解决运动不一致的问题。

  • 对机械臂更有效的姿态学习与控制

在Real2Sim2Real范例中,通过基于姿态的控制策略,利用逆运动学和基于扩散的生成模型,将现实世界中的机械臂操作转化为仿真环境中的控制指令,以实现更有效的机器人学习与控制。这种方法的核心在于将机械臂末端执行器在现实世界中的姿态轨迹转换到仿真环境中,以实现从现实到仿真的有效策略迁移。这种控制方法侧重于机械臂末端执行器(如夹爪、工具等)的姿态(位置和方向),通过测量或预设末端执行器在现实世界中的姿态轨迹,可以生成相应的控制指令。在仿真环境中重现末端执行器姿态的轨迹,可以帮助确保仿真训练的有效性和现实世界的一致性。

  • 实现更逼真的渲染

以往的研究通常使用NeRF和高斯飞溅来重建机器人操作场景并实现模拟,探索基于高斯的、高度可变形的物体重建,进行机器人仿真和抓取任务。然而,这些方法往往无法实现高保真渲染。因此,为了实现逼真的渲染,文章将传统的基于MLP的变形场替换为数值ODE求解器,以提高四维高斯溅射的质量

11c06abdeec52f177df183b4b977ac89.png

模型架构解析

接下来一起看看文章的模型具体是如何搭建的吧。

文章的数字资产由网格、高斯飞溅和真实世界的运动来表示。在传统的数字资产制作中,主要关注的是纹理网格和材料属性。然而,文章意识到物体的物理参数,如质量和摩擦,在机器人操作中更为重要。每个高斯绑定到一组网格顶点和面,创建高斯-网格-像素绑定,如图3所示。

586df595238c8a172dcf49f80729a179.png

文章定义投影映射(Projection Mapping)、网格映射(Mesh Mapping)、重投影映射(Re-projection Mapping)来连接高斯飞溅,网格和真实世界运动的表示。其中,投影映射将任何已知的3D点位置使用透视投影模型重新投影到2D图像平面上;网格映射将高斯中心(A)与顶点集合(V)中的每一个顶点关联;重投影映射定义了高斯中心(A)与图像像素位置(P)和顶点集合(V)相关联的同构关系φ,记录真实场景的图像平面、基于网格的模拟引擎的模拟结果和渲染的4D高斯飞溅场景之间转移轨迹。从真实世界的视频到高斯到网格的渐变(向后优化)、从网格到高斯到渲染视频的渐变(前向渲染)遵循以上映射关系。

接下来,文章从单目视频数据中提取机器人臂的链接、对象和背景网格,并将其与物理参数和控制方程相结合,以生成用于仿真的统一机器人描述格式(URDF)模型。具体来说分为以下几步:(1)从视频数据中提取三维网格模型,这些模型能够精确地表示机器人臂的各个部分、操作对象以及背景环境。(2)LLM(Large Language Models)在这里用于推断物理参数,如质量、摩擦系数等,这些参数对于机器人操作和仿真至关重要。(3)控制方程(用于描述和控制机器人运动的数学方程)被嵌入到URDF资产中,有助于在仿真环境中准确地模拟机器人的行为。(4)Panoptic图像分割技术更精确地从视频中提取和重建三维网格,并将它们整合到URDF模型中。(5)采用2DGS(2D Gaussian Splatting)从二维图像中提取三维几何信息,将图像中的像素映射到三维空间中的高斯分布。此外,文章采用场景重新定向技术将重建的场景与仿真引擎的坐标系对齐,并建立了一个统一的坐标系统OpenGL,无缝连接现实世界和模拟场景。

outside_default.png
  • 运动控制方程的选择上,将原来的四维重建问题分解为静态和动态两个阶段,使用欧拉表示法处理静态场景,使用拉格朗日表示法处理动态场景。文章采用基于姿态的机械臂控制策略,重点控制末端执行器的姿态,并使用逆运动学来生成现实世界中每个关节的控制信号。在这种方法中,网格充当互连映射。每个网格的运动通过变换矩阵传递到每个绑定到该网格上的高斯,从而引导高斯的运动。

  • 动力学控制方程选择牛顿-欧拉方程,生成一个具有机械臂力控制和刚体运动的变换矩阵。

  • 最后,为了渲染视图,高斯飞溅将这些3D高斯投影到图像平面上,并计算每个像素的颜色,及每个高斯中心在t时刻的位置更新,从而提取一组轨迹,应用于渲染场景。

实验结果

文章比较了当前最先进的四维高斯喷溅,包括SC-GS和K-Planes,与本文的方法,发现K-Planes和SC-GS都不能优化机械臂和物体运动的转换。图5显示了执行一组轨迹以识别其拐角情况的机器人手臂的重建。本文的方法展示了处理复杂轨迹和运动的能力。

outside_default.png

图6显示了推箱子的机械臂的重构。显然,KPlanes和SC-GS无法准确地重建机械臂和刚体的动态运动,这与Robo360的结果一致。相比之下,本文的方法在机器人操作任务中成功地保持了运动和几何一致性。

outside_default.png

文章将文章的方法与2DGS Original, Gaustudio, SUGAR和商业3D扫描仪扫描的地面真相进行比较。与SUGAR和Gaustudio相比,文章的方法产生了更好的网格质量,并实现了接触丰富的策略执行。图7显示了与地面真值网格和其他方法相比,文章的网格结果的质量更好。可以看到,在URDF方法中,文章的模型成功地重构了机械臂不同小模块的相接的部位

outside_default.png

表1给出了Gaustudio、Sugar、Robostudio (v1)和Robostudio (Full)的定量比较结果。Robostudio (v1)和Robostudio (Full)之间的区别在于Robostudio (Full)包括二维高斯溅射(2DGS)中的重新定向和网格清洗技术,从而改善了对齐和采样。

outside_default.png

总结

文章针对机械手臂操作场景的整体重建,这需要一个可操作的机器人模型,背景和对象的重建,质量和摩擦等物理参数的结合,以及逼真的渲染器。该方法的核心是高斯-网格-像素绑定,它在网格顶点、高斯核和图像像素之间建立了同构关系。每个高斯被分配一个语义标签和相应的ID,从而能够精确地应用由URDF控制的转换矩阵。这确保了真实世界视频、模拟结果和渲染图像之间轨迹的无缝传输。这种绑定的优点包括在每个表示之间传递端到端的可微分梯度,通过文章最先进的网格重建进行卓越的碰撞检测,以及高渲染质量。系统确保了模拟和现实之间的一致渲染,允许学习策略有效地部署在现实场景中。此外,它还支持在Isaac Sim (Gym)模拟中进行编辑后端,启用新姿态和新策略调整。此外,文章还提出了一种新的数字资产格式,由网格、高斯飞溅和真实世界运动的组合表示。该方法通过整合从真实世界的运动视频中提取的关键物理参数,如质量和摩擦,超越了传统的纹理网格和材料属性。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

outside_default.png

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

outside_default.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

outside_default.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

outside_default.png

④【自动驾驶之心】全平台矩阵

outside_default.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值