以Mobile ALOHA为代表的模仿学习的爆发：从Dobb·E、Gello到ALOHA、OK-Robot、UMI、DexCap、伯克利FMB

v_JULY_v

已于 2025-04-14 22:35:01 修改

阅读量1.5w

点赞数 59

分类专栏： ALOHA ACT/umi/LeRobot/dexcap系列文章标签：大模型机器人 Google RT2 Berkeley Gello 斯坦福Mobile ALOHA Google家务机器人 CMU 18万机器人

于 2024-01-07 12:02:12 首次发布

本文链接：https://blog.csdn.net/v_JULY_v/article/details/135429156

版权

ALOHA ACT/umi/LeRobot/dexcap系列专栏收录该内容

17 篇文章

订阅专栏

前言

前几天，斯坦福的炒虾机器人火爆全网，让包括我在内的所有人目瞪口呆，我在朋友圈评论道：

多模态 + 大模型 + AI agent可以全方位赋能机器人
一年前我决心彻底写清楚ChatGPT原理
一年前，因为对ChatGPT背后技术原理巨大的「好奇心」，加之极高的「分享热情」、以及想写一篇关于其原理最全面最深入最细致文章的「决心」，彻底改变了过去一年的轨迹
最后，博客证明了技术研究能力，课程证明了教学教研能力，项目证明了带队开发能力

一年后的今天，我下定决心准备彻底研究下机器人
刚好今年q1本身要做一个AI agent小项目，希望q2起，有机会做这个机器人agent大项目，如能和某高校实验室或资本合作更好

说干就干

一方面，我组建了一个大模型机器人小组(作为我司的第4项目组)，准备复现一系列开源的大模型机器人
后续，我们和合作伙伴共同把斯坦福的UMI、DexCap成功复现了(应该是国内最早复现这两模型的团队或之一了)，然后接下来会把这两者的所有硬件全部换成国产平替

且为不断扩大整个大模型机器人的开发队伍，需要从课程中选拔更多人才
故开了：机器人二次开发线下营(线下提供价值20万的实体机器人供线下实操)

且我司七月的机器人开发团队已开始给一些工厂做解决方案(结合工厂的业务场景做定制开发)
二方面，我准备把大模型机器人的发展史以及其中涉及到的所有关键技术细节，全部都梳理一下(毕竟新闻稿只能看个大概，但想精准理解，必须结合一系列论文理解)

总之，不要看一篇新闻稿觉得很行，再看一篇又觉得不行了，不要人云亦云被新闻稿带节奏(比如，虽然其有些动作是被远程操控完成的，但还是有很多动作是其自主完成，比如对于一些简单的任务，Mobile ALOHA可以在50次学习之后达到90%的行动成功率)

第一部分纽约大学：Dobb·E——把机器人带回家

1.1 Dobb·E：基于预训练模型和微调的行为克隆

在这项工作中，纽约大学一研究团队通过引入Dobb-E(这是其论文：On Bringing Robots Home，Submitted on 27 Nov 2023)，提出了家庭教学机器人的框架，其只需五分钟就能学会一项新任务，这要归功于用廉价零件和iphone制作的示范收集工具，具体来说，Dobb-E的关键组件包括：

硬件方面，主要使用了一种名为“棒”的演示收集工具(如下图A所示，相当于数据收集工具，然后可以在机器人上使用类似的设置，如下图C所示，最终机器人本身通过模仿人类的操作实现行为克隆，如下图D所示)，该工具结合了3D打印组件和iPhone的可负担伸展抓取器。此外，将iPhone安装在机器人上，以便实现从棒直接传输数据，无需进行域适配
Hardware: The primary interface is our demonstration collection tool, termed the "Stick." It combines an affordable reacher-grabber with 3D printed components and an iPhone. Additionally,an iPhone mount on the robot facilitates direct data transfer from the Stick without needing domain adaptation.
预训练数据集：使用棒工具收集了一个为期13小时的数据集，名为纽约只家(HoNY)，其中包含来自22个纽约家庭共216个环境的5620个演示。这些演示支持我们系统的适应性，并被用于Dobb-E预训练表示模型
Pretraining Dataset: Leveraging the Stick, we amass a 13 hour dataset called Homes of NewYork (HoNY), comprising 5620 demonstrations from 216 environments in 22 New York homes,bolstering our system's adaptability. This dataset serves to pretrain representation models forDobb-E.
模型和算法：基于预训练数据集，他们成功构建了一种流线型视觉模型，即家庭预训练表示(HPR)，并采用先进的自监督学习(SSL)技术进行训练
对于新任务而言，仅需进行24次迭代调整即可微调该视觉模型，并结合视觉和深度信息来实现3D推理
Models and algorithms: Given the pretraining dataset we train a streamlined vision model, called Home Pretrained Representations (HPR), employing cutting-edge self-supervised learning (SSL)techniques. For novel tasks, a mere 24 demonstrations sufficed to finetune this vision model,incorporating both visual and depth information to account for 3D reasoning.
集成：他们的整体系统，封装硬件，模型和算法，以商用移动机器人为中心:Hello Robot Stretch

最终让Dobb-E在10个家庭中进行了为期30天的实验，在此期间，它尝试了109个任务，并成功学习了102个任务，其表现为50%，总体成功率为81%。同时，发现

简单方法的惊人效果：Dob-E采用了视觉模仿学习的简单行为克隆配方，利用ResNet模型[Deep residual learning for image recognition]进行视觉表示提取，并使用双层神经网络[The perceptron: a probabilistic model for information storage and organization in the brain，这竟然是1958年的一篇老论文，我是没想到的，^_^ ]进行动作预测
Surprising effectiveness of simple methods: Dobb-E follows a simple behavior cloning recipefor visual imitation learning using a ResNet model [5] for visual representation extraction anda two-layer neural network [6] for action prediction

平均而言，仅通过收集每个任务在5分钟内91秒的数据，Dob-E能够在家中实现81%的成功率
有效SSL预训练对结果产生了影响：我们基于家庭数据训练的HPR基础视觉模型，在与其他基础视觉模型相比，在更大规模互联网数据集上训练时至少提高了23%任务成功率
Impact of effective SSL pretraining: Our foundational vision model, HPR trained on home dataimproves tasks success rate by at least 23% compared to other foundational vision models [7-9],which were trained on much larger internet datasets
里程计、深度和专业知识：Dob-E的成功在很大程度上依赖于操纵杆提供高度准确的里程计和iPhone姿态与位置感应动作，以及iPhone激光雷达所提供的深度信息
此外，收集演示数据的易用性也使得使用操纵杆进行迭代研究问题变得更加快速、便捷
Odometry, depth, and expertise: The success of Dobb-E is heavily reliant on the Stick providinghighly accurate odometry and actions from the iPhones' pose and position sensing, and depthinformation from the iPhone's Lidar. Ease of collecting demonsrations also makes iterating onresearch problems with the Stick much faster and easier
剩余挑战：机器人力量、范围和电池寿命等硬件限制限制了机器人可以解决物理任务的能力(详见第3.3.3节)，而该策略框架则受到模糊感知和更复杂临时扩展任务等因素影响

本质上，Dob-E是一个行为克隆框架[10]。而行为克隆是模仿学习的一种形式，通过观察和模仿人类或其他专家代理的行为来学习执行任务。行为克隆涉及训练模型以模仿演示的动作或行为，并通常使用标记的训练数据将观察映射到期望的动作

在作者的方法中，他们首先对一个轻量级基础视觉模型进行预训练，在家庭演示数据集上进行实验
然后在新家庭中给定新任务时，收集了一些演示并微调他们的模型以解决该任务

整个方法可以分为4个阶段：

设计一个硬件设置，以便收集演示及其无缝转移到机器人身上
在不同的家庭中使用该硬件设置收集数据
对该数据上预训练基础模型(pretraining foundational models on this data)
将经过训练的模型部署到家庭中

1.1.1 硬件设计

该系统并未要求用户移动整个机器人，而是利用一款价格便宜的25美元可伸缩末端执行器创建了一个“你好机器人”的复制品，并通过3D打印的iPhone支架进行增强，此外，iPhone Pro(版本12或更新)配备的摄像头设置和内部陀螺仪能够以每秒30帧的速度获取RGB图像、深度数据以及6D位置信息(包括平移和旋转)

使用已安装在iPhone上的Record3D来捕获演示数据，该应用程序能够保存

从相机记录的1280×720像素的RGB数据
激光雷达传感器记录的256×192像素的深度数据(注意，如paper第21页最后所说，adding depth perception to the model helps it perform much better than the model with RGB-only input)
不过，最终模型训练时，上面这两块数据会被缩放到256×256像素
以及iPhone内部的里程表(odometry)和陀螺仪记录的手柄运动(6D的平移和旋转数据)

然后以30 FPS速率将这些数据记录到手机中，并进行导出和处理

所有的系统都部署在Hello Robot Stretch上，这是一款单臂移动机械手机器人，已经可以在公开市场上购买。我们在所有实验中使用Stretch RE1版本，其灵巧的手腕附件赋予了机器人6D运动能力。它成本低廉、便携轻便(仅重51磅/23公斤)，并且可以通过电池供电长达两个小时。此外，Stretch RE1还配备了Intel NUC计算机，可以以30 Hz的频率运行学习策略

1.1.2 对预训练数据集(Pretraining Dataset)的大量收集

凭借上面的硬件设置，只需将手柄带回家，将iPhone连接到手柄上，并使用Record3D应用程序记录时进行任何演示者想要展示的操作，最终在一些志愿者的协助下收集了一个名为纽约之家(HoNY)的家庭任务数据集

该数据集由22个不同家庭中志愿者共同创建，在总计13小时录制时间内包含5620个演示视频，总计近150万帧图像
志愿者专注于八个广泛定义好的任务类别：开关按钮、开门、关门、抽屉打开、抽屉关闭、拣选和放置物品、手柄抓取以及游戏数据。对于游戏数据，我们要求志愿者记录他们使用手柄在家中进行任意活动时产生的相关数据。这种有趣行为过去已被证明对表示学习目标具有潜力[21, 24]
指导志愿者花费约10分钟来记录他们所处环境或场景中每个演示视频。最初选择的演示任务是多样化且具有一定挑战性，但对机器人而言仍然可行

尽管iPhone可以提供末端执行器的姿态数据(the pose of the end-effector)，但无法直接获取夹持器本身的开启或关闭状态。为了解决这一问题，我们训练了一个模型来追踪夹持器尖端

从数据集中选取了500个随机帧，并在这些帧上使用像素坐标标记了两个夹持器尖端的位置
然后，利用该数据集对一个由三层ConvNet构成的夹持器模型进行训练，该模型试图将夹持器尖端之间的距离预测为0到1之间的标准化数值，该模型在heldout评估集上获得了0.035的MSE验证误差(以0-1尺度表示)
We trained a gripper model on that dataset, which is a3-layer ConvNet that tries to predict the distance between the gripper tips as a normalized number between 0 and 1
随后被用于标记数据集中其余帧中夹持器的值(介于0到1之间)

1.1.3 Policy Learning with Home Pretrained Representations

拥有多样化的家庭数据集之后，下一步的任务是训练一个基础的视觉模仿模型，以便在家中进行轻松地修改和部署。他们的策略由两个简单组件构成：一个视觉编码器和一个策略头

ResNet34足够小，可以在机器人的机载计算机上运行
使用MoCo-v3自监督学习算法在他们收集的数据集上对视觉编码器进行60个epochs的预训练，称这个模型为家庭预训练表示(HPR)模型，部署的所有策略都是基于这个模型训练的
We pretrainour visual encoder on our collected dataset with the MoCo-v3 self-supervised learning algorithm for60 epochs. We call this model the Home Pretrained Representation (HPR) model, based on which allof our deployed policies are trained.

且比较了使用他们自己的视觉编码器与在不同数据集和算法上训练的视觉编码器(如R3M [8]、VC1 [9]和MVP [7])甚至只是在ImageNet-1K [59]上进行预训练后效果之间的差异
We compare the effects of using our own visual encoder vs. apretrained visual encoder trained on different datasets and algorithms, such as R3M [8], VC1 [9], andMVP [7], or even only pretraining on ImageNet-1K [59], in Section 3.4.1.
下游策略学习方面，在每个新任务中，根据所捕获到深度值和视觉编码器进行简单操纵策略学习。该策略输入空间为256×256像素大小RGB-D图像(4通道)，输出空间为一个7维向量，其中前三个维度表示相对平移，接下来三个维度表示相对旋转(轴角表示)，最后一个维度表示夹持器值范围介于0到1之间
Downstream Policy Learning On every new task, we learn a simple manipulation policy based onour visual encoder and the captured depth values. For the policy, the input space is an RGB-D image(4 channels) with shape 256×256 pixels, and the output space is a 7-dimensional vector, where thefirst 3 dimensions are relative translations, next 3 dimensions are relative rotations (in axis anglerepresentation), and the final dimension is a gripper value between 0 and 1.
具体而言，他们设计了一个简单结构用于实现该策略：首先应用于RGB通道的图像表达模型，并通过中位池化操作应用于深度通道；然后经过两层全连接层将512 维图像表达和512 维深度值投影到7 维动作空间
Our policy is learned topredict an action at 3.75 Hz, since that is the frequency with which we subsample our trajectories. The policy architecture simply consists of our visual representation model applied to the RGB channelsin parallel to a median-pooling applied on the depth channel, followed by two fully connected layersthat project the 512 dimensional image representation and 512 dimensional depth values down to 7dimensional actions.

在监督训练期间, 网络从观察到动作映射进行学习, 并未冻结任何参数, 学习速率设置为 3×10^−5 进行50次迭代更新(During this supervised training period where the network learns to map fromobservation to actions, we do not freeze any of the parameters, and train them for 50 epochs with alearning rate of 3×10 −5)

网络采用均方误差(MSE)损失函数进行训练，在计算损失之前将每个轴上动作标准化为零均值和单位标准差 (We train our network with a mean-squared error (MSE) loss, and normalizethe actions per axis to have zero mean and unit standard deviation before calculating the loss)

1.1.4 部署到一个新的家庭

为了解决新任务，首先简要收集一些任务示范。通常会收集24个新示范作为经验数据，对于简单的5秒任务来说这是足够的。在实际操作中，收集这些示范大约需要5分钟时间。然而，在某些环境下重置所需时间更长，在这种情况下，收集示范可能需要更多时间

为了使机器人策略具备一定的空间泛化能力，我们通常从任务设置前各种位置开始收集数据，并且通常在一个小型4×6或5×5网格中进行
一旦数据收集完成，将R3D文件中的数据转换为数据集格式需要约5分钟。接着，在GPU RTX A4000上进行50次训练平均需时约20分钟。因此，从开始数据收集到获得可在机器人上部署的策略，平均时间为30分钟
然后使用安装在手臂上的iPhone和Record3D应用程序，通过USB将RGB-D图像流传输到机器人计算机上
为了获得预测动作，他们对输入图像和深度进行处理。利用基于PyKDL的逆运动学求解器，在机器人末端执行器上执行预测的相对动作
We use the iPhone mounted on the arm and the Record3D app to stream RGB-Dimages via USB to the robot computer. We run our policy on the input images and depth to get the predicted action. We use a PyKDL based inverse kinematics solver to execute the predicted relative action on the robot end-effector.

由于模型预测摄像头帧中的运动，他们在机器人URDF中添加了一个关节来连接额外摄像头，从而可以直接执行预测动作，无需精确计算从摄像头帧到机器人末端执行器帧之间的转换
Since the model predicts the motion in the camera frame, we addeda joint in the robot’s URDF for the attached camera, and so we can directly execute the predicted action without exactly calculating the transform from the camera frame to the robot end-effectorframe

对于夹持关闭操作，采用二进制方式根据任务变化应用阈值来预测夹持状态。通过接收观察并命令机器人执行策略预测的动作，并等待其完成以接收下一个观察，在机器人上同步运行策略
For the gripper closing, we binarize the predicted gripper value by applying a threshold that can vary between tasks. We run the policy synchronously on the robot by taking in an observation,commanding the robot to execute the policy-predicted action, and waiting until robot completes theaction to take in the next observation.
针对评估实验，通常每个任务会使用10个不同初始起始位置(如上图b所示)，这些起始位置改变了机械臂夹持装置垂直和水平方向上的初始位置。在这10次试验之间，我们会手动重置机械臂和环境
For our evaluation experiments we generally use 10 initialstarting positions for each robot task (Figure 9 (b)). These starting positions vary our robot gripper’s starting position in the vertical and horizontal directions. Between each of these 10 trials, we manuallyreset the robot and the environment.

第二部分 Berkeley Gello：比ALOHA设备成本更低且机械臂上可迁移

2.1 Gello：一种通用、低成本且直观的机器人操作框架(类似ALOHA)

23年9月，来自UC Berkeley的研究者们(Philipp Wu、Yide Shentu、Zhongke Yi、Xingyu Lin、Pieter Abbeel)提出了Gello——一种通用、低成本且直观的机器人操作框架

构建一个远程操作系统，目前一般有两种方式

一种是从较低成本的商品电子设备（如3D鼠标[17]、VR控制器[18]、[19]或摄像头）捕获控制信号，然后转换为机器人动作。然而，这些系统抽象掉了机器人的运动学约束，对于新用户来说可能不直观
还有一种是，类似“低成本开源硬件系统用于双手远程操作”——ALOHA，其利用现成的伺服驱动臂来控制具有相似尺寸和运动学的操纵器，尽管是单向的，但在细粒度操作任务中表现出色的远程操作能力[9]
然而，ALOHA系统针对特定的机器人手臂进行了定制，并且由于为用户提供了额外的机器人手臂作为控制器，因此成本较高

包括下文即将要介绍的Mobile ALOHA，也是在23年ALOHA的工作基础上迭代优化出来的，不是一蹴而就，以下是关于ALOHA的一系列重要信息

ALOHA项目地址：https://tonyzhaozh.github.io/aloha/
论文地址：Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
这是其解读，论文中首次系统阐述了作为“无论是最新系统Mobile ALOHA还是其前身系统ALOHA中的关键技术”：即动作分块算法ACT
代码地址：https://github.com/tonyzhaozh/aloha
该代码仓库友情提醒：
To build ALOHA, follow the Hardware Assembly Tutorial and the quick start guide below.
To train imitation learning algorithms, you would also need to install ACT.
硬件安装指南：ALOHA 🏖️ Tutorial (文档标题为：ALOHA 🏖️: A Low-cost Open-source Hardware for Bimanual Teleoperation)
基于动作分块算法ACT的训练代码：https://github.com/tonyzhaozh/act

关于ALOHA的更多信息，以及到底什么是ACT，请详见此文：《斯坦福机器人Mobile ALOHA的关键技术：动作分块ACT的算法原理与代码剖析》

2.2 Gello的远程操作设备设计

GELLO 的组装说明见：https://docs.google.com/document/d/1pzV8LDIGZh6zq8z-ZyKjUZ1ISkdCQctfu_05-ZY95eg/edit?tab=t.0#heading=h.hbbn0pp1i7p0

2.2.1 伺服选择

在a) 伺服选择上：使GELLO构建成为可能的关键组件是低成本、全功能伺服的可用性。具体来说，作者使用了DYNAMIXEL XL330系列[58]。尽管价格低廉，这些伺服配备了高分辨率的12位编码器，能够在机械角度的0.088度内进行关节测量。这些编码器提供伺服器位置的测量，允许将控制器的配置精确映射到目标手臂

原则上，构建GELLO甚至不需要伺服器，因为只需读取关节位置。然而，在实践中，伺服器包提供了一种易于使用的现成、自包含的解决方案，它具有编码器和通信协议，简化了构造、使用和维护，进一步实现了易于复制的目标

此外，当用户反向驱动伺服器时，伺服器致动器提供物理阻力，充当自然阻尼并提高用户的稳定性。出于这个原因，作者使用XL-330-288T，它提供最高的齿轮比，提供最大的阻力

2.2.2 缩放的运动学等效结构

在b) 缩放的运动学等效结构上：作者将GELLO构建为目标机械臂的小规模版本，具有运动学等效结构。这意味着GELLO的关节和连杆直接对应目标机械臂的关节和连杆，使用户能够像在动力教学[59]中那样，直接控制目标机械臂一样控制GELLO操纵器

运动学等效结构是通过采用DH参数生成的目标机械臂，然后通过一个因子α来缩放长度。虽然舒适的最佳α值取决于用户和机器人，但作者在实现中使用了α=0.5，发现其效果良好

关节位置从GELLO设备读取，并直接作为关节指令发送到目标机械臂进行操作，避免了计算逆运动学的需要。当关节接近运动学奇异点或关节极限时，用户可以从控制器感受到阻力，因此对这些故障更加警觉，从而实现更可靠的远程操作

同时，小型化设计使控制器更便携，但仍允许用户操作全尺寸机器人臂

2.2.3 关节正则化

仅使用被动伺服电机时，机械臂在操作过程中会被重力拖拽至不理想的配置。作者发现，通过添加简单的关节正则化器，可以抵消重力对机械手的影响，使用户更容易控制

作者采用基本但有效的被动关节正则化方法，使用弹簧或橡皮筋等机械组件，确保设备保持“自然”姿态。这可以防止机械臂采取其他运动学上可行但不常规的位置，如下图图2所示，这可能导致碰撞

作者仅在机械臂默认静止位置中对重力表现出最大阻力的关节添加关节正则化元素，对于UR设计，这是第二和第三个关节

作者在下图图3中对此进行了定量研究。还发现关节正则化为用户提供了被动的力反馈，这种反馈在关节范围的极限附近有所不同。这可以帮助用户了解机械臂的当前配置

2.2.4 3D打印部件

在GELLO中使用3D打印部件允许高度定制化，使用户可以设计和打印与特定机器人硬件匹配的部件。3D打印使作者能够轻松设计适用于三种运动学不同的机器人的GELLO系统

3D打印也是一种生产部件的成本效益高的方法，进一步体现了GELLO的低成本特性。遵循这些简单的设计原则，作者实例化并测试了三种常用的机器人手臂，UniversalRobot UR5、uFactory xArm7 和 Franka Panda

下图图 4 展示了作者可以使用 GELLO 在不同机器人上执行的示例任务。直接关节控制的控制设置导致软件栈非常简单。关节角度直接从 GELLO 设备中读取，使用 DYNAMIXEL 提供的 python API，然后命令给从动机器人

作者使用每种机器人类型的各种 python API 向从动机器人发送命令。且使用 ZMQ [60] 在进程之间进行消息传递，并提供了一个简单的协议以扩展到新的机器人类型

第三部分斯坦福机器人Mobile ALOHA：炒菜、家务全活了

3.1 Mobile ALOHA：通过示范数据做行为克隆，更结合前身ALOHA的静态数据做协同训练

在机器人技术领域，通过对人类示范进行模仿学习已经取得了令人瞩目的成绩。然而，目前大多数研究结果都集中在桌面操作上，缺乏完成一般任务的移动性和灵活性

24年1月初，斯坦福一研究团队(Zipeng Fu、Tony Z. Zhao、Chelsea Finn)开发了一个系统：Mobile ALOHA

项目地址(可总览所有重要信息)：https://mobile-aloha.github.io/
论文地址：Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation
硬件代码：hardware code之mobile-aloha
软件代码：learning code之act-plus-plus，本质就是ACT(关于什么是ACT，详见下节)
数据地址：public_mobile_aloha_datasets
硬件安装指南：Mobile ALOHA 🏄 Tutorial，该文档中涵盖了安装前身ALOHA的指南链接(简单粗暴理解的话，mobile aloha相当于在其前身aloha的基础上增加了移动底盘，即mobile aloha = aloha + mobile，至于前身ALOHA的更多信息详见下节)

由于其可以做各种家务，比如炒菜、刷碗等等，使得其一经发布便火爆全网

id="CQtNab5G-1704600103367" frameborder="0" src="https://live.csdn.net/v/embed/357936" allowfullscreen="true" data-mediaembed="csdn">

斯坦福家务机器人mobile-aloha

该系统用于模仿需要全身控制的双臂移动操作任务(In this work, we develop a systemfor imitating mobile manipulation tasks that are bi-manual and require whole-body control)

首先提出了Mobile ALOHA系统，作为低成本全身远程操作系统来收集数据(通过一个移动底座和一个全身远程操作界面增强了其前身ALOHA 系统)
We first present Mobile ALOHA, a low-cost and whole-body teleoperation system for data collection. It augmentsthe ALOHA system [104] with a mobile base, and a whole-body teleoperation interface.
之后利用Mobile ALOHA 收集的示范数据(说白了，人类先做示范，然后机器人向人类学习)，进行有监督的行为克隆(behavioral cloning)，且和其前身ALOHA收集到的静态(示范)数据进行协同训练co-training
Using data col-lected with Mobile ALOHA, we then perform super-vised behavior cloning and find that co-training with existing static ALOHA datasets boosts performance on mobile manipulation tasks.
对于每个任务，只要用新平台采集的包含50条示范数据，然后结合前身ALOHA的静态示范数据，经过协同训练后成功率可达到90%，使得Mobile ALOHA能够自主完成复杂的移动操作任务，如炒虾、打开双门壁柜存放沉重的烹饪锅、呼叫并进入电梯以及使用厨房水龙头轻轻冲洗用过的平底锅。
With 50 demonstra-tions for each task, co-training can increase successrates by up to 90%, allowing Mobile ALOHA to au-tonomously complete complex mobile manipulation tasks such as sauteing and serving a piece of shrimp,opening a two-door wall cabinet to store heavy cook-ing pots, calling and entering an elevator, and lightlyrinsing a used pan using a kitchen faucet.

3.2 Mobile ALOHA 硬件

3.2.1 Mobile ALOHA 硬件的总体情况

在此之前

能够即插即用的全身遥控硬件是比较昂贵的，比如像PR2、TIAGo这样的机器人价格一般超过20万美刀
且之前的机器人也没法完成复杂的需要双手互相配合的各种灵活操作，毕竟人类的十指多么灵活
虽然最近的许多研究表明，在细粒度的多模态操作任务中，高表达能力的策略类方法(如扩散模型和Transformer)可以取得良好效果(While many recent works demon-strate that highly expressive policy classes such asdiffusion models and transformers can perform wellon fine-grained)，但目前尚不清楚这些方法是否适用于移动操作：随着附加自由度增加，手臂与基础动作之间的相互作用可能变得复杂，微小偏差可能导致手臂末端执行器姿态大幅漂移

而Mobile ALOHA 是一种低成本的移动机械手，可以执行各种家庭任务，其继承了原始 ALOHA 系统的优点，即低成本、灵巧、可维修的双臂远程操作装置，同时将其功能扩展到桌面操作之外，且重点做到了以下4点

移动能力：移动速度与人类行走速度相当，约为1.42m/s
稳定性：在操作重型家用物品(比如锅和橱柜)时它能保持稳定
全身遥控操作：手臂和底盘可以同时运动
无线：具有机载电源和计算设备(数据收集和推断期间的所有计算都是在配备了Nvidia 3070 Ti GPU (8GB VRAM)和Intel i7-12800H的消费级笔记本电脑上进行)

如上图所示

上图左侧部分(Mobile ALOHA has two wrist cameras and one top camera, with onboard power and compute)
展示了研究者发现将操作员的腰部与移动底座系在一起的设计是最简单直接的解决方案
上图中间部分(Middle: The teleoperation setup can be removed and only two ViperX 300 [3] are used during autonomous execution. Both arms can reach a min/max height of 65cm/200cm, and extends 100cm from the base)中的数据表明
机械手相对于地面的垂直高度为 65 厘米至 200 厘米，可伸出底座 100 厘米，可举起 1.5 千克重的物体，并可在 1.5 米高处施加 100 牛的拉力
这样的设计让 Mobile ALOHA 可以完成很多任务，包括实物烹饪、家务管理、人机互动等
上图右侧部分中列出了 Mobile ALOHA 的更多技术规格
除了现成的机器人外，研究者还开源了所有的软件和硬件部件，并提供了详细的教程，包括三维打印、组装和软件安装

3.2.2 硬件材料清单与硬件制作步骤

首先，准备一系列硬件材料，比如

三个罗技C922x RGB的网络摄像头，分辨率为480 × 640，频率为50Hz(两个摄像头安装在跟随者机器人的手腕上，第三个摄像头面向前方)
笔记本电脑还通过USB串行端口接收来自所有4个手臂的本体感觉流，通过CAN总线接收来自移动的轮式底盘Tracer的本体感觉流

3.2.2.1 硬件材料清单Bill of Materials

Part	Quantity	Link	Price (per unit)
Robots
从动臂ViperX 300 Robot Arm 6DOF	2	ViperX 300 Robot Arm 6DOF	$5,695.95
主动臂WidowX 250 Robot Arm 6DOF	2	WidowX 250 Robot Arm 6DOF - X-Series Robotic Arm	$3,295.95
移动的轮式底盘Tracer AGV	1	AgileX Tracer AGV	$8,999.95
Onboard Compute
Lambda Labs Tensorbook	1	Deep Learning Laptop - RTX 3080 Max-Q \| Razer x Lambda Tensorbook	$2,399.00
Robot Frame
4040 800mm x 8	4	Amazon.com (2 pcs)	$42.29
4040 500mm x 6	2	Amazon.com (4 pcs)	$58.99
4040 400mm x 2	2	Amazon.com (1 pcs)	$22.99
4040 300mm x 7	2	Amazon.com (4 pcs)	$59.99
4040 L-shape connectors x 28	5	Amazon.com (6 pcs)	$32.99
4040 T-shape connectors x 4	1	Amazon.com (6 pcs)	$30.99
4040 45-degree corner connectors	1	Amazon.com	$21.99
4040 Corner Bracket and T-Slot Sliding Nuts	2	Amazon.com	$24.99
4040 caps	2	Amazon.com	$9.81
M6 20mm (for mounting robot)	1	Amazon.com	$9.99
M6 T nuts for 4040 (for mounting robot)	2	Amazon.com	$14.16
Camera setup
相机Logitech C922x Pro Stream Webcam	4	Amazon.com	$98.35
USB Hub	2	Amazon.com	$19.99
Power
Battery Pack	1	Amazon.com	$699.00
600W DC Supply	1	Amazon.com	$59.00
12V DC Cable	5	Amazon.com	$15.99
Fork Spade Connectors	1	Amazon.com	$13.69
USB-A to Micro USB Cable	4	Amazon.com	$17.87
Wheel Odometry
DYNAMIXEL XL430-W250-T	2	DYNAMIXEL XL430-W250-T - ROBOTIS	$49.90
U2D2	1	U2D2 - ROBOTIS	$32.10
U2D2 Power Hub Board Set	1	U2D2 Power Hub Board Set - ROBOTIS	$19.00
Jumper Wire	1	Amazon.com	$9.99
Weights	1	Amazon.com: ACCRETION 1 Oz Grey Adhesive Backed Wheel Weights (24 Oz Pack) : Automotive	$14.65
Misc
Rubber Band	1	Amazon.com	$9.99
Gripping Tape	1	Amazon.com	$54.14
Common equipments
Allen keys
Hot glue gun

Total			$31,757.8

3.2.2.2 3D Printed Parts

对于人遥控端和机器操作端方面的执行器，请按照ALOHA的教程进行操作：ALOHA 🏖️ Tutorial。关于wheel odometry，以下是所需零件的清单(共6件)：

3.2.2.3 硬件安装指南Hardware Guide

硬件材料准备齐全后，按以下步骤一步步执行

Install ALOHA end-effectors
通过6个步骤打造ALOHA：ALOHA 🏖️ Tutorial，单纯打造这个还不具备移动功能的ALOHA便得花费3万刀中的1.9万刀
Build the robot frame
Mount the robots and the cameras
Cable connections

3.3 增加静态ALOHA 数据进行Co-training

3.3.1 静态ALOHA 数据的组成情况

对于机器人的训练，数据是一个很大的问题

使用模仿学习(imitation learning)来解决现实世界机器人任务的典型方法依赖于在特定机器人硬件平台上收集的目标任务数据集。然而，这种方法虽够但数据本身收集的过程过于冗长，因为在特定机器人硬件平台上，人类操作员需要从头开始为每个任务收集演示数据
The typical approach for using imitation learning to solve real-world robotics tasks relies on using thedatasets that are collected on a specific robot hard-ware platform for a targeted task. This straightfor-ward approach, however, suffers from lengthy datacollection processes where human operators collect demonstration data from scratch for every task onthe a specific robot hardware platform.

且由于这些专门数据集中视觉差异有限，在这些数据集上训练得到的策略通常对感知干扰(如干扰和照明变化)不够鲁棒
The policie strained on these specialized datasets are often not ro-bust to the perceptual perturbations (e.g. distractorsand lighting changes) due to the limited visual diver-sity in these datasets [95]
好在最近，在从不同但类似类型的机器人收集的各种真实数据集上进行co-training，在单臂操作和导航方面已经显示出了有希望的结果
Recently, co-training ondiverse real-world datasets collected from different but similar types of robots have shown promising results on single-arm manipulation [11, 20, 31, 61],and on navigation [79].

斯坦福的研究者在这项工作中便使用的Co-training，且利用现有的静态ALOHA 数据集来提高移动操作的模仿学习性能，尤其是双臂动作

不含移动底盘的前身ALOHA收集到的静态数据集总共有 825 个示范动作，任务包括密封密封袋、拿起叉子、包装糖果、撕纸巾、打开带盖塑料瓶、玩乒乓球、分发胶带、使用咖啡机、交接铅笔和操作螺丝刀等

需要注意的是，静态ALOHA 数据都是在黑色桌面上收集的，主动臂和从动臂都是固定在桌面上朝着对方(更多详见此文《斯坦福Mobile ALOHA背后的关键技术：动作分块算法ACT的原理解析》)
这种设置与移动 ALOHA 不同，移动 ALOHA 的背景会随着移动底盘的变化而变化，主动臂和从动臂的两臂均平行朝着前方
在Co-training中，研究者没有对静态ALOHA 数据中的 RGB 观察结果或双臂动作使用任何特殊的数据处理技术

3.3.2 基于两套数据(静态ALOHA示范数据和移动ALOHA示范数据)训练损失函数

任务 $m$ 的移动操作策略 $\pi^{m}$ 的训练目标是最小化模拟损失函数 $L$

$\begin{array}{l} \mathbb{E}_{\left(o^{i}, a_{\text {arms }}^{i}, a_{\text {base }}^{i}\right) \sim D_{\text {mobile }}^{m}}\left[L\left(a_{\text {arms }}^{i}, a_{\text {base }}^{i}, \pi^{m}\left(o^{i}\right)\right)\right]+ \mathbb{E}_{\left(o^{i}, a_{\text {arms }}^{i}\right) \sim D_{\text {static }}}\left[L\left(a_{\text {arms }}^{i},[0,0], \pi^{m}\left(o^{i}\right)\right)\right] \end{array}$

其中 $o^{i}$ 表示观察结果，包括两个手腕摄像头RGB(two wrist camera RGB observations)的、一个安装在手臂和手臂关节之间、以自我为中心的顶部摄像头RGB观察(top camera RGB observation mounted，其固定不动)，和14维的从臂关节位置，如下图左上角所示

我们以相同概率从静态ALOHA数据 $D_{\text {static }}$ 和移动ALOHA数据 $D_{\text {mobile }}^{m}$ 中进行抽样(两者占比其实影响不大，比如 $D_{\text {static }}$ 如果占比30%或50%，则成功率都最终能达到95%，当然如果 $D_{\text {static }}$ 占比70%，则成功率最终能达到90%)，并将批量大小设置为16

由于静态ALOHA数据没有移动基本动作，我们对动作标签进行零填充处理(zero-padding)，使得来自两个数据集的动作具有相同维度，我们还忽略了静态ALOHA数据中的前置摄像头(front camera)，因此两个数据集都有3个摄像头：2个wrist camera、1个top camera
Since static ALOHA datapoints have no mobile base actions, we zero-pad the action labels so actions from both datasets have the same dimension.We also ignore the front camera in the static ALOHA data so that both datasets have 3 cameras.

怎么定位这个前置摄像头(front camera)呢，好在ALOHA的论文原文中标记了具体哪个是前置摄像头，详见此文《斯坦福Mobile ALOHA背后的关键技术：动作分块算法ACT的原理解析》的1.2节)
同时，我们仅根据移动ALOHA数据集 $D_{\text {mobile }}^{m}$ 的统计信息对每个动作进行标准化处理
We normalize every action based on the statistics of the Mobile ALOHA dataset Dm mobile alone
在实验中，我们将这种协同训练方法与多种基本模仿学习方法(如ACT [Learning fine-grained bimanual manipulation with low-cost hardware]、扩散策略[Diffusion policy: Visuomotor policy learning via action diffusion]和VINN [The surprising effectiveness of representation learning for visual imitation])结合使用
In our experiments, we combine this co-training recipe with multiple base imitation learning approaches, including ACT [104], Diffusion Policy [18], and VINN [63]

再次提醒，关于ACT的技术细节包括其代码实现，详见此文《斯坦福Mobile ALOHA背后的关键技术：动作分块算法ACT的原理解析》，讲得非常细致

最终该团队选择了 7 个任务，它们涵盖了现实应用中可能出现的各种功能、对象和交互，分别是擦拭葡萄酒、煮虾、冲洗锅、使用橱柜、呼叫电梯、推椅子和击掌

下图则是机器人在执行任务时的导航移动轨迹

3.4 实验：协同训练是否有效提升ACT性能，且适合兼容多种模仿学习方法

在实验中回答两个核心问题：

移动ALOHA是否能够通过协同训练co-training和少量移动操作数据来获得复杂的移动操作技能？
Can Mobile ALOHA acquire complex mobile manipulation skills with co-training and a small amount of mobile manipulation data?
移动ALOHA是否能够与不同类型的模仿学习方法一起工作，包括ACT、扩散策略和基于检索的VINN？
Can Mobile ALOHA work with different types of imita-tion learning methods, including ACT [104], Diffu-sion Policy [18], and retrieval-based VINN [63]?

作为初步研究，我们将使用“动作分块”[action chunking]这种方法，在该方法中一个策略预测未来一系列动作，而不是每个时间步只预测一个动作。这种方法已经被应用于ACT和扩散策略，并且可以简单地添加到VINN中(As a preliminary, all methods we will examine em-ploy “action chunking” [104], where a policy predictsa sequence of future actions instead of one action ateach time step)

采用动作分块对于操作至关重要，它提高了生成轨迹的一致性，并减少了逐步策略推断所带来的延迟
We found action chunking to be crucial formanipulation, improving the coherence of generated trajectory and reducing the latency from per-steppolicy inference.
我们观察到移动基座目标速度与实际速度之间存在延迟，而位置控制手臂则具有更小的延迟。为了解释移动基座d步骤上出现的延迟情况，我们使机器人执行长度为k-d 的第一个k-d 手臂行为以及最后一个k-d 基座行为
We observe a delay between target and actual veloc-ities of our mobile base, while the delay for position-controlled arms is much smaller. To account for adelay of d steps of the mobile base, our robot exe-cutes the first k −d arm actions and last k −d baseactions of an action chunk of length k.

3.4.1 协同训练提高了性能且比预训练效果更好

研究发现，Co-training可以提高ACT性能。在7项具有挑战性的移动操作任务中，与静态ALOHA数据集进行Co-training可持续提高ACT的成功率

比如协同训练在擦拭酒的任务中的表现，成功率95%，大大优于预训练的成功率40%
在预训练过程中，作者首先用static ALOHA的数据训练了10k步，然后用mobile ALOHA的数据继续训练
作者发现预训练的方式并没有提高模型的表现，猜测模型可能在使用mobile ALOHA数据进行微调的阶段已经忘记了在static ALOHA上学到的知识
那为何协同训练可以提高效果呢？作者认为，static ALOHA数据中关于抓取和接近物体的运动先验知识对训练mobile ALOHA的模型有很大帮助，尤其是其中腕部视角是具有不变性的，对场景的变换有较强的抗干扰能力

3.4.2 兼容ACT、扩散策略和VINN

除了ACT，还使用Mobile ALOHA训练了两种最新的模仿学习方法，即扩散策略[18]和VINN[63](We train two recent imitation learning methods,Diffusion Policy [18] and VINN [63], with Mobile ALOHA in addition to ACT.)

扩散策略通过逐步细化动作预测来训练神经网络。为提高推理速度，采用DDIM调度器并对图像观测应用数据增强以防止过拟合。co-training数据管道与ACT相同，在附录A中有更多的训练细节可供参考
Diffusion policy trains aneural network to gradually refine the action predic-tion. We use the DDIM scheduler [85] to improve in-ference speed, and apply data augmentation to image observations to prevent overfitting. The co-training data pipeline is the same as ACT, and we includemore training details in the Appendix A.3.
VINN利用BYOL[Bootstrap your own latenta new approach to self-supervised learning]训练一个视觉表示模型(简单地用移动和静态数据的组合对BYOL编码器进行co-training)，并使用该模型从具有最近邻演示数据集中检索动作。且采用本体感知特征增强VINN检索，并调整相对权重以平衡视觉和本体感知特征的重要性
VINN trains a visual representation model, BYOL [37] anduses it to retrieve actions from the demonstrationdataset with nearest neighbors. We augment VINNretrieval with proprioception features and tune therelative weight to balance visual and proprioceptionfeature importance

此外，进行了动作块的检索而非单个动作，并发现类似于Zhao等人的显著性能改进
We also retrieve an action chunkinstead of a single action and find significant per-formance improvement similar to Zhao et al.. For

总之，带分块的VINN、扩散策略和ACT在Mobile ALOHA上都取得了良好的性能，并且受益于与静态ALOHA的协同训练Co-training

当然，在协同训练Co-training的过程中

ACT的表现最好
diffusion policy略差
虽然它的模型表达能力比较强，但作者认为，50条的示教数据量可能不够
VINN最差
比如对于VINN+擦红酒任务，Co-training的表现比起单独训练反而变差了，作者认为，这是由于VINN算法本身没有办法利用测试(应用)场景分布之外的数据(一种在测试时寻找训练集中nearest neighbour的方法），static ALOHA的数据对于VINN来讲就可能没那么有效

最终，仅用32000美元的预算，通过静态ALOHA数据Co-training的模仿学习，Mobile ALOHA只需要20-50个演示就能学会各种复杂的任务

斯坦福Mobile ALOHA向所有人展示了机器人在各种应用场景的潜力，甚至机器人开源实现了人人可复刻

第四部分从纽约大学和Meta：OK-Robot到斯坦福UMI

4.1 OK-Robot：What Really Matters in Integrating Open-KnowledgeModels for Robotics

最近，纽约大学、Meta 研发出的一款机器人学会了这个技能。你只需要对它说，「把桌子上的玉米片拿到床头柜上」，它就能自己找到玉米片，并规划出路线和相应的动作，顺利完成任务。此外，它还能帮你整理东西或扔垃圾

这个机器人名叫 OK-Robot，由来自纽约大学、Meta 的研究者共同构建。他们将视觉语言模型(用于物体检测)、导航和抓取的基础模块整合到一个开放知识型框架中，为机器人的高效拾放操作提供了解决方案

论文链接：OK-Robot: What Really Matters in Integrating Open-KnowledgeModels for Robotics，Submitted on 22 Jan 2024
项目链接：https://ok-robot.github.io

OK-Robot 定位中的「开放知识」指的是在大型公开数据集上训练的学习模型

当 OK-Robot 被放置在一个新的家庭环境中时，它将从 iPhone 上获取扫描结果。根据扫描结果，它会使用 LangSam(即Language Segment-Anything) 和 CLIP 计算出密集的视觉语言表征，并将其存储在语义存储器中
OK-Robot is seeded with a scan taken from an iPhone. Given this scan, dense vision-language representationsare computed using LangSam [24] and CLIP [9] and storedin a semantic memory
在此之后，给定一个需要拾取的对象的语言查询，查询的语言表征与语义记忆相匹配
Then, given a language-query for an object that has to be picked, language representations of the query is matched with semantic memory
接下来，它会依次应用导航和拾取模块，移动到所需物体并将其拾取。类似的过程也可用于丢弃物体
After this, navigationand picking primitives are applied sequentially to move to the desired object and pick it up. A similar process can be carriedout for dropping the object

为了研究 OK-Robot，研究者在 10 个真实的家庭环境中对其进行了测试

id="FhmQdCka-1706511122105" frameborder="0" src="https://live.csdn.net/v/embed/362059" allowfullscreen="true" data-mediaembed="csdn">

header_video_ultra_ultra_com..

通过实验，他们发现，在一个从未见过的自然家居环境中，该系统零样本部署的成功率平均为 58.5%。然而，这一成功率在很大程度上取决于环境的「自然程度」。因为他们发现，通过改进查询、整理空间和排除明显具有对抗性的物体(太大、太半透明、太滑)，这一成功率达到了约 82.4%

总之，通过实验，他们得出了以下结论：

预训练的视觉语言模型对开放词汇导航非常有效：目前的open-vocabulary vision-language模型 —— 如 CLIP 或 OWL-ViT(Vision Transformer for Open-World Localization，by Google Research 2022)
即Pre-trained VLMs are highly effective for open-vocabulary navigation: Current open-vocabulary vision-language models such as CLIP [9] or OWL-ViT
在识别真实世界中的任意物体方面表现出色，并能以零样本的方式导航、找到这些物体
即offer strong performance in identifing arbitrary objects in the realworld, and enable navigating to them in a zero-shot manner

[Simple Open-Vocabulary Object Detection with Vision Transformers，和DETR有点点类似，两阶段训练方式：1. Contrastively pre-train image and text encoders on large-scale image-text data，2. Add detection heads and fine-tune on medium-sized detection data ]
预训练的抓取模型可直接应用于移动操控：与 VLM 类似，根据大量数据预训练的专用机器人模型可以直接应用于家庭中的开放词汇抓取。这些机器人模型不需要任何额外的训练或微调
如何组合组件至关重要：研究者发现，在预先训练好模型的情况下，可以使用一个简单的状态机模型(state-machine model)将它们组合起来，而无需进行任何训练。他们还发现，使用启发式方法来抵消机器人的物理限制，可以在真实世界中获得更高的成功率
目前仍存在一些挑战：考虑到在任意家庭中进行零样本操作的巨大挑战，OK-Robot 在先前工作的基础上进行了改进：通过分析失败模式，他们发现在视觉语言模型、机器人模型和机器人形态学方面可以进行重大改进，这将直接提高开放知识操纵智能体的性能

4.2 技术组成和方法

该研究主要解决这个问题：从 B 上拿起 A 并将其放在 C 上，其中 A 是一个物体，B 和 C 是现实世界环境中的某个地方。要实现这一点，所提系统需要包含以下模块：

开放词汇对象导航模块
开放词汇 RGB-D 抓取模块
释放或放置对象的启发式模块(dropping heuristic)

4.2.1 开放词汇物体导航(open-vocabulary object navigation)：扫描、构图、检测、存储、查询、寻路

首先是扫描房间
开放词汇对象导航遵循了 CLIP-Fields 的方法，并假设有一个预先映射阶段，即使用 iPhone 手动扫描家庭环境
Scanning the home: For open vocabulary object navigation,we follow the approach from CLIP-Fields [27] and assumea pre-mapping phase where the home is “scanned” manually using an iPhone.
这种手动扫描只是用 iPhone 上的 Record3D 应用程序拍摄家庭视频，这将产生一系列带位置的 RGB-D 图像
This manual scan simply consists of taking a video of the home using the Record3D app on the iPhone,which results in a sequence of posed RGB-D images.
地图构建
扫描每个房间的时间不到一分钟，一旦信息收集完毕，RGB-D 图像以及相机的姿态和位置就被导出到项目库中进行地图构建
especially for a novel space, while our “scan” takeless than one minute for each room. Once collected, the RGB-Dimages, along with the camera pose and positions, are exportedto our library for map-building.
且录制时必须捕捉地面表面以及环境中的物体和容器(there cording must capture the floor surface alongside the objectsand receptacles in the environment)
接下来是进行物体检测(Detecting objects)
在扫描的每一帧上，会有一个开放词汇对象检测器对扫描的内容进行处理。本文选择 OWL-ViT 物体检测器，因为这种方法在初步查询中表现更好
On each frame of the scan, we run an open-vocabulary object detector. Unlike previous works which usedDetic [7], we chose OWL-ViT [8] as the object detector since we found it to perform better in preliminary queries
研究者在每一帧上应用检测器，并提取每个对象边界框、CLIP 嵌入、检测器置信度，并将它们传递到导航模块的物体存储模块中
We applythe detector on every frame, and extract each of the objectbounding box, CLIP-embedding, detector confidence, and passthem onto the object memory module of our navigation module

在之前的工作基础上，他们进一步将边界框细化为使用Segment Anything(SAM)的对象掩码
Building on top of previous work [27], we further refinethe bounding boxes into object masks with Segment Anything(SAM) [28]
然后进行以物体为中心的语义存储(Object-centric semantic memory)
本文借助 VoxelMap(类似于Clip-Fields和OVMM的以物体为中心的记忆) 来完成这一步(We use an object-centricmemory similar to Clip-Fields [27] and OVMM [25] that wecall the VoxelMap)

具体来说，物体掩模是通过深度图像和相机采集的姿态反投影到真实世界坐标系中，从而生成一个点云。每个点都与来自CLIP的关联语义向量相关联
The object masks are back-projected inreal-world coordinates using the depth image and the pose collected by the camera, giving us a point cloud where each point has an associated semantic vector coming from CLIP.

然后，我们将点云以5厘米分辨率进行立体像素(简称体素)化，并对每个体素计算属于该体素的CLIP嵌入检测器置信度加权平均值。这个体素图构成了我们物体记忆模块的基础
Then, we voxelize the point cloud to a 5 cm resolution and for each voxel, calculate the detector-confidence weighted average for the CLIP embeddings that belong to that voxel. This voxel map builds the base of our object memory module.
之后是查询记忆模块(Querying the memory module)：当给定一个语言查询时，使用CLIP语言编码器将其转换为语义向量(Given a language query, we convertit to a semantic vector using the CLIP language encoder)

然后，寻找使编码向量和立体像素语义表示(the voxel’s semantic representation)之间点积最大化的顶部体素。由于每个体素都与家中的真实位置有关联，类似于下图(a)，这使得我们能够找到最有可能匹配查询对象所在的地方
Then,we find the top voxel where the dot product between the encoded vector and the voxel’s semantic representation is maximized. Since each voxel is associated with a real locationin the home, this lets us find the location where a queriedobject is most likely to be found, similar to Figure 2(a)

必要时，本文将「A on B」实施为「A close B」。为此，查询 A 选择前 10 个点，查询 B 选择前 50 个点。然后计算 10×50 成对欧氏距离，并选择与最短 (A, B) 距离相关的 A 点。

完成上述过程，接下来就是导航到现实世界中的对象：一旦得到了现实世界中的 3D 位置坐标，就可以将其用作机器人的导航目标来初始化操作阶段。导航模块必须将机器人放置在手臂可触到的范围，以便机器人随后可以操纵目标物体

为了从空间中的任何其他点安全地导航到目标点，简言之，通过利用之前捕获的RGB-D图像构建障碍物地图，比如创建了一个2D网格，每个单元大小为10cm×10cm，然后使用A*算法进行导航，具体而言

为了将体素图转换为障碍物图，我们设定了地板和天花板高度，并将被占据的体素视为已占据的网格单元，而没有天花板或地板体素则表示未探索的网格单元
我们将被占据或未探索的单元标记为不可导航区域
在每个被占据点周围20厘米范围内的所有点也被标记为不可导航区域，以考虑机器人本身及其旋转半径
在A*算法中，我们使用s3函数作为节点成本启发式来远离任何障碍物进行路径规划，这使得生成路径与理想Voronoi路径相似

4.2.2 机器人对现实世界物体的抓握(含AnyGrasp的简介)

与开放词汇导航不同，为了完成抓取任务，算法需要与现实世界中的任意对象进行物理交互，这使得这部分变得更加困难。因此，本文选择使用预训练的抓取模型来生成现实世界中的抓取姿态，并使用 VLM 进行语言条件过滤

本文使用的抓取生成模块是 AnyGrasp「其对应的论文为：《AnyGrasp: Robust and Efficient Grasp Perception in Spatial and Temporal Domains》」，它在给定单个 RGB 图像和点云的场景中使用平行钳口夹具生成无碰撞抓取

AnyGrasp 提供了场景中可能的抓握，如上图第2列所示，包括抓握点、宽度、高度、深度和抓握分数，该分数表示每次抓握中未校准的模型置信度
使用语言查询过滤抓握：对于从 AnyGrasp 获得的抓握建议，本文采用 LangSam 过滤抓握。本文将所有建议的抓握点投影到图像上，并找到落入对象掩模的抓握点(上图第 4 列)
抓握执行。一旦确定了最佳抓握(上图第5列)，就可以使用简单的预抓握方法来抓握目标对象

为方便大家的理解，我特地再简要介绍下AnyGrasp——其提出了一种新的直接将观测映射到连续动作空间的方法，用于预测动态7自由度的抓取配置

他们在训练过程中遇到的一个问题是缺乏真实世界中动态物体抓取的数据集。以往的抓取学习依赖于在仿真中收集数据

然而，他们使用低成本商业深度传感器时，即使采用简单的仿真到真实的转换技术，算法的表现仍不如直接使用真实世界数据进行训练
因此，他们坚持使用真实数据进行训练。为了避免大量人工劳动，他们利用静态场景中不同观察之间的抓取姿势对应关系，并在时空域中提出了一种具有真实感知和分析标签的密集监督策略，大大提高了数据效率
最终在一个包含超过300个未见过的物体的大规模抓取实验中测试了AnyGrasp，这些物体具有多样的形状、材料和尺寸
测试结果显示平均成功率超过93%，完成率超过99.8%，这与人类使用相同末端执行器配置和开环抓取策略的表现相当
// 待更

4.2.3 释放或放置对象的启发式模块

抓握对象后，接下来就是将对象放置在什么地方。与 HomeRobot 的基线实现不同，该方法假设物体放下的位置是一个平坦的表面，本文进行了扩展，还涵盖了凹物体，如水槽、箱子、盒子和袋子。

至此，导航、抓握和放置都有了，之后就可以直接将它们组合起来，该方法可以直接应用于任何新的家庭。对于新的家居环境，该研究可以在一分钟内扫描房间。然后，只需不到五分钟即可将其处理到 VoxelMap 中。一旦完成，机器人就可以立即放置在选定的场地并开始运行。从到达一个全新的环境到开始在其中自主操作，该系统平均需要不到 10 分钟即可完成第一个取放任务

至于UMI的部分已独立成文，详见：UMI——斯坦福刷盘机器人：从手持夹持器到动作预测Diffusion Policy(含代码解读)

第五部分斯坦福李飞飞团队DexCap：可扩展和便携的动作捕捉数据收集系统

本部分已独立成文，详见：DexCap——斯坦福李飞飞团队泡茶机器人：更好数据收集系统的原理解析、源码剖析

第六部分伯克利开源通用机器人学习的操控基准

6.1 Functional Manipulation Benchmark for Generalizable Robotic Learning

24年1月下旬，加州大学伯克利分校智能机器人实验室(RAIL)的研究团队提出了FMB(Functional Manipulation Benchmark for Generalizable Robotic Learning)

项目主页：https://functional-manipulation-benchmark.github.io/
论文地址：FMB: a Functional Manipulation Benchmark for Generalizable Robotic Learning
共同第一作者主页：https://people.eecs.berkeley.edu/~jianlanluo/
https://charlesxu0124.github.io/

6.1.1 物体和任务

FMB 中的任务大致分为两类：单物体多步骤操控任务和多物体多步骤操控任务。这些任务旨在测试机器人的基本技能，如抓取、重新定位和装配等，这些都是完成整个任务所必需的技能。FMB 中的任务要求机器人不仅能完成单一的操控技能，还要求机器人能够将这些技能组合起来，完成更为复杂的多步骤任务。

FMB 的任务设计灵活多变，研究人员可以根据需要选择专注于单一技能，深入研究机器人的操控能力，也可以研究完整的多步骤任务，这需要机器人进行长期规划并具备从失败中恢复的能力。由于涉及选择合适的物体并推理操控物体的顺序，更为复杂的多步骤任务要求机器人能够做出复杂的实时决策

6.1.2 大型数据集

为了使机器人更好地理解和掌握复杂的任务

研究团队收集了一个涵盖上述任务的大规模专家人类示范数据集，包含超过22550个操作轨迹
研究团队采用了4个不同的摄像机记录这些示范数据，其中两个摄像机安装在机器人的末端执行器上，另外两个安装在箱子两侧以提供全局视角(we have four Intel RealSense D405cameras, two of which are mounted on the robot end-effector, and the rest are placed on each side of the bin to provide a complementary view of objects inthe bin)
这些摄像机捕捉了对于机器人学习解决任务至关重要的 RGB 彩色图像信息、深度信息等数据，且提供了可做校准的相机内联功能，这种校准可以在必要时将深度图像转换为点云(We simultaneously capture RGB and depthimages from these cameras, and we also provide calibrated camera intrinsics. This calibration allows for the conversion of depth images into point clouds when necessary)
此外，数据集还记录了机器人末端执行器的力 / 扭矩信息，这对于像装配这样需要接触大量物体的的任务非常重要

通过这些丰富的数据，机器人能够深入理解任务的每个细节，更加精确地模仿人类的操作技巧。正是由于数据的深度和广度，为机器人学习提供了坚实的基础。这使得机器人在执行复杂任务时，能够更加人性化和更灵巧地对任务作出响应

6.2 FMB的模仿学习系统

6.2.1 基于 Transformer 和 ResNet 的两种策略模型

简而言之，基于 Transformer 和 ResNet 的两种模型都使用了共享权重的ResNet 编码器，让其对每个图像视图进行编码，然后与本体感知信息、可选的物体、以及相应的机器人技能编码特征结合，以预测 7 自由度的动作，具体而言

在下图左侧所示的基于Transformer的策略中，他们提出了一个仅解码器Transformer架构(最近的研究表明，在机器人控制中，Transformer的主要优势在于处理多模态输入和利用大规模、多样化数据集进行扩展)

且为了对来自多个摄像机视角的图像进行标记，他们采用了共享权重的ResNet-34编码器(We use weight-shared ResNet-34 encoders to tokenize images from multiple camera views)

但为了满足策略输入的需要，还在输入侧添加了FiLM层来对object ID或primitive ID进行条件处理
We additionally add FiLM (Perez et al., 2018) layers to condition on the object ID or primitive ID if they are required as part of the inputs to the policies.
机器人本体信息通过MLP单独标记，并与正弦位置嵌入连接后通过具有4个注意力头和4个MLP层的自注意力层进行处理
Robot proprioceptive information is tokenized via an MLP separately. These tokens, after being concatenated together with sinusoidal position embeddings, are then processed through self-attention layers with four attention heads and four MLP layers.
训练期间使用高斯量化器将连续6D机器人动作空间每个维度离散化为256个箱子，运行时向机器人发送命令时会将离散化动作空间转换回连续值
Each dimension of the continuous 6D robot actionspace is discretized into 256 bins during training byusing a Gaussian quantizer. The discretized actionspace is converted back into continuous values whensending commands to the robot at runtime.

而在上图右侧所示的基于ResNet的策略中，该结构由ResNet-34视觉骨干和一个MLP作为策略头组成(It is composed of ResNet-34 vision backbones and an MLP as the policy head)，且在所有任务中都采用这个通用结构，只对每个任务的特定输入进行调整

首先，对多张RGB图像和深度图像(且如paper 第11页右上角所述，同时使用深度和RGB信息训练的ResNet策略，始终优于使用相同数据数量训练的仅使用RGB的策略)，使用共享权重的ResNets进行编码，然后再连接特征(It takes multiple RGB and depth images and encodes them separately with weight-shared ResNets before concatenating the features)
然后，如上图右侧的左下角所示，系统还融合了机器人本体感知信息(如末端执行器姿态、扭转或力/扭矩测量)，在进行线性投影之后进入MLP层
It also takes the robot’s proprioceptive information, such as end-effector pose, twist, or force/torque measurements, then performs linear projection before being fed into the MLP
且系统还能够调节object ID和manipulation skill ID，并以one-hot向量形式表示(这种机制对于处理长时间、多阶段任务非常重要)，同样的，在进行线性投影之后进入MLP层
the system iscapable of conditioning on both the object ID and manipulation skill ID, which are represented as one-hot vectors，This mechanism is crucial for employing a hi-erarchical approach to effectively address long-horizon,multi-stage tasks.
最终的输出结果包括6D末端执行器扭转和一个二进制变量，指示夹子是否应该打开或关闭(The output is a 6D end-effector twist as well as a binary variable that indicates whether the gripper should open or close)

6.2.2 多步骤任务的解决：分级控制 (hierarchical control)

对于一些简单任务，他们tested the performance of ResNet policies with and without action chunking(这个动作分块算法即斯坦福一研究团队提出的ACT),along with a Transformer-based policy without action chunking on seen and unseen objects.

在已见和未见物体上，ResNet策略没有动作分块时在旋转技能方面表现优于“有动作分块的ResNet策略”，和Transformer
The ResNetpolicy without action chunking outperforms its coun-terpart with action chunking and Transformer on therotate skill.
然而，在夹具放置和重新抓取技能方面，相比有或没有动作分块的ResNet策略，Transformer策略表现更佳
In contrast, the Transformer policies out-perform ResNet policies with or without action chunk-ing for the place on fixture and regrasp skills

但对于多步骤任务，传统的 ResNet、Transformer 和 Diffusion 方法均未能奏效，好在该论文中提出的分级控制 (hierarchical control) 方法显示出了潜力

具体而言

复杂任务要求机器人能够像人类一样连续完成多个步骤。此前的方法是让机器人学习整个过程，但这种方法容易因为单一环节的错误而不断累计误差，最后导致整个任务失败
无论是在单物体还是多物体操控任务中，这种方法的成功率均为 0/10
针对累积误差问题，研究团队采用了分层控制策略
分层策略通过将任务分解成若干小块，每完成一块便相当于通过一个决策点，即使出现错误也能迅速纠正，避免影响后续环节
例如，如果机器人在抓取过程中未能稳固抓住物体，human oracle会持续让机器人尝试直至成功(The hierarchical policiesuse a human oracle as the high-level policy)

虽说有人类的高级策略赋予一定的先验知识了，但到底用什么样的策略可以做更好呢

如下图所示，对于Multi-Object Multi-Stage Manipulation任务而言，分层策略采用人类预测作为高级策略，依次触发具有每个阶段适当的原始和对象ID的低级策略(sequentially triggering a low-level policy with the appropriate primitive and object IDs for each stage)

与单一对象聚类任务相似，所有无条件策略均未能成功。值得注意的是，基于Transformer的策略表现出色，成功率达到7/10(Similar to single-object ma-nipulation tasks, all unconditioned policies achieved zerosuccess. Remarkably, the Transformer-based policy outper-formed others, achieving a success rate of 7/10)
之所以如此，与基于ResNet的策略相比，基于Transformer的策略能够有效地排除与任务无关的模态，例如在任务中不必要地插入第4个摄像机
这一属性在FMB任务的多阶段、多任务模仿学习环境中特别有益
In contrast to the ResNet-basedpolicies, the Transformer-based policies learned to ef-fectively ignore task-irrelevant modalities, such as thenon-essential fourth camera in the insertion task.
Thisattribute is particularly beneficial in the multi-stage,multi-task imitation learning settings characteristic of FMB tasks.

最终，机器人在学习后能够自主进行功能操控

第七部分 CMU 18万机器人：模仿学习 + RL之后，一切自主操作

7.1 先模仿学习(通过演示数据进行行为克隆)，后RL(通过CLIP视觉语言模型给予环境反馈)

24年1月，CMU一团队通过这篇论文《Adaptive Mobile Manipulation for Articulated Objects In the Open World》提出了开放世界移动操作系统(Open-World Mobile Manipu-lation System)，这是一个全栈方法，用于解决开放世界中真实关节物体的移动操作问题

通过“带有相关参数的结构化动作空间”来实现有效的学习
Efficient learning is enabled by a structured ac-tion space with parametric primitives
自适应学习允许机器人通过在线RL从自我实践数据中不断学习
by pretraining the Adaptive learning allows the robot to keep learning fromself-practice data via online RL
作者介绍了一种低成本的移动操作硬件平台，该平台具备高有效载荷，使其能够与物体进行重复交互。例如，在开放世界环境下穿越各种门以及在狭窄和杂乱的空间中导航等任务都可以完成
We introduce a low-cost mobile manipulation hardware plat-form that offers a high payload, making it capable of repeatedinteraction with objects, e.g. a heavy, spring-loaded door, anda human-size, capable of maneuvering across various doorsand navigating around narrow and cluttered spaces in theopen world.

为了测试系统的有效性，我们对大学校园内4栋建筑中的8个新物体进行了现场测试，并发现自适应收益将成功率从预训练策略的50%提高到适应后的95%
We conducted a field test of 8 novel objectsranging across 4 buildings on a university campus to test the effectiveness of our system, and found adaptive earningboosts success rate from 50% from the pre-trained policy to 95% after adaptation

7.1.1 策略的初始化：通过收集到的演示数据进行行为克隆

为了实现高效学习，采用了一个结构化的分层动作空间。该空间包括一个固定的高级动作策略和可学习的低级控制参数。通过利用遥操作演示产生不同数据集进行行为克隆(BC)，然后初始化了策略(To achieve efficient learning, we use astructured hierarchical action space. This uses a fixed high-level action strategy and learnable low-level control param-eters. Using this action space, we initialize our policy viabehavior cloning (BC) with a diverse dataset of teleoperated demonstrations)

然而，在开放世界环境中，对象变化范围广泛，因此初始的BC策略可能无法适应机器人可能遇到的每个未见物体。为解决这一问题，我们使机器人能够从在线样本中持续学习和适应，并描述了在线学习过程(we enable the robot to learn from the online samples it collects to continually learn andadapt. We describe the continual learning process as well asdesign considerations for online learning)

为了提高学习效率，采用参数化的基本动作空间(parameterized primitive action space)

具体来说，假设使用一个被g参数化的抓取原语G(.)进行访问
Concretely, we assume access to a grasping primitive G(.) parameterized by g.
此外，还引入了一个受限的移动操作原语M(.)，其中包含两个参数：一个离散参数C和一个连续参数c
We also havea constrained mobile-manipulation primitives M(.), whereprimitive M(.) takes two parameters, a discrete parameter C and a continuous parameter c.
轨迹以开环方式执行，即在每个抓取原语之后跟随一组N个受限的移动操作原语
Trajectories are executed in an open-loop manner, a grasping primitive followed by asequence of N constrained mobile-manipulation primitives:

$\left\{I_{s}, G(g),\left\{M\left(C_{i}, c_{i}\right)\right\}_{i=1}^{N}, I_{f}, R\right\}$

其中Is代表初始观察图像，G(g)和M(Ci,ci)分别表示参数化抓取和约束操作原语，If代表最终观察图像，ris表示轨迹的奖励(where Is is the initial observed image, G(g), M(Ci,ci))denote the parameterized grasp and constrained manipulationprimitives respectively, I f is the final observed image, and ris the reward for the trajectory)

尽管这个结构化空间在表达能力上不如完整的动作空间强大，但它足以学习我们每天遇到的铰接对象的有效策略，并包括20个不同门、抽屉和冰箱等开放世界环境中的情景。该结构只需使用20-30个轨迹序列就能从少量样本中进行学习

7.1.2 自适应学习：模仿学习 + 在线RL

给定初始观测图像 $I_s$ ，我们使用分类器 $\pi_{\phi}\left(\left\{C_{i}\right\}_{i=1}^{N} \mid I\right)$ 来预测 $N$ 个离散参数 $\left\{C_{i}\right\}_{i=1}^{N}$ 序列的约束移动操作，并利用条件策略网络 $\pi_{\theta}\left(g,\left\{c_{i}\right\}_{i=1}^{N} \mid I,\left\{C_{i}\right\}_{i=1}^{N}\right)$ 生成抓取原语的连续参数和 $N$ 个约束移动操作原语序列(Given an initial observation image Is, we use a classifierπφ({Ci}Ni=1|I) to predict the a sequence of N discrete pa-rameters {Ci}Ni=1 for constrained mobile-manipulation, anda conditional policy network πθ(g,{ci}Ni=1|I,{Ci}Ni=1) whichproduces the continuous parameters of the grasping primi-tive and a sequence of N constrained mobile-manipulationprimitives)，机器人按照开环方式逐个执行参数化原语(The robot executes the parameterized primitivesone by one in an open-loop manner)

模仿学习
模仿学习旨在通过学习策略参数 $\pi_{\theta, \phi}$ ，以最大化专家动作的可能性(The imitation learning objective is to learn policy pa-rameters πθ,φ that maximize the likelihood of the expertactions)
具体而言，对于给定图像观测数据集 $I_s$ 和相应的动作 $\left\{g,\left\{C_{i}\right\}_{i=1}^{N},\left\{c_{i}\right\}_{i=1}^{N}\right\}$ ，模仿学习目标是：

$\max _{\phi, \theta}\left[\log \pi_{\phi}\left(\left\{C_{i}\right\}_{i=1}^{N} \mid I_{S}\right)+\log \pi_{\theta}\left(g,\left\{c_{i}\right\}_{i=1}^{N} \mid\left\{C_{i}\right\}_{i=1}^{N}, I_{S}\right)\right]$

在线RL
在线RL面临着一个核心挑战，即操作新的铰接对象，这些对象不符合行为克隆训练数据分布(The central challenge we face is operatingnew articulated objects that fall outside the behavior cloningtraining data distribution)。为了解决这一问题，作者使策略能够利用机器人收集的在线样本进行持续改进。换言之，作者致力于最大化策略下预期奖励总和
$\max _{\theta, \phi} \mathbb{E}_{\pi_{\theta, \phi}}\left[\sum_{t=0}^{T} r\left(s_{t}, a_{t}\right)\right]$
由于作者采用了前文所述的高度结构化的行为空间，因此可以使用相对简单的强化学习算法来优化该目标。具体而言，作者应用了REINFORCE目标(分别定义为公式3、公式4)
$\begin{array}{l} \nabla_{\theta, \phi} J(\theta, \phi)=\mathbb{E}_{\pi_{\theta, \phi}}\left[\sum_{t=0}^{T} \nabla_{\theta} \log \pi\left(a_{t} \mid s_{t}\right) \cdot r_{t}\right] \\ =\mathbb{E}_{\pi_{\phi, \theta}}\left[\left(\nabla_{\phi} \log \pi_{\phi}\left(C_{i} \mid I\right)+\nabla_{\theta} \log \pi_{\theta}\left(g, c_{i} \mid C_{i}, I\right)\right) \cdot R\right] \end{array}$
其中R代表轨迹执行结束时所获得的奖励。需要注意的是，我们只有单个时间步长过渡，并且所有动作都由观察到的图像 $I_s$ 决定，并以开环方式执行(where R is the reward provided at the end of trajectory execution. Note that we only have a single time-step transition, all actions are determined from the observed image Is , and executed in an open-loop manner)
整体微调
为了确保策略不会与模拟数据集的初始化偏离过大，在微调时采用加权目标进行优化。整体损失函数定义如下(定义为公式5)：
其中，在线采样数据的损失通过上面的公式4进行优化，而批量离线数据的损失则通过上面公式2的BC算法进行优化。在执行更新操作时，我们对在线和离线数据使用相同大小的批次

7.2 训练细节

7.2.1 抓取细节与受限的移动操作

给定从真实感相机获得的场景RGBD图像，使用现有的视觉模型[Detecting twenty-thousand classes using image-level supervision]，[Segment anything]来获取门和手柄的掩码，并仅提供文本提示

此外，由于门是一个平面，我们可以利用相应的掩码和深度图像来估计门的表面法线Furthermore, since the door is aflat plane, we can estimate the surface normals of the doorusing the corresponding mask and the depth image
这被用于将底座移动到靠近门位置并使其垂直，并设置抓取手柄时的方向角(This is used to move the base close to the door and align it tobe perpendicular, and also to set the orientation angle forgrasping the handle)
通过使用相机标定将手柄2D掩码中心投影到3D坐标中，即可得到名义上的抓取位置
The center of the 2d mask of the handle is projected into 3d coordinates using camera calibration,and this is the nominal grasp position.
抓取原语的低级控制参数指示了抓取位置偏移量。这对于不同类型手柄可能需要稍微调整位置以达到最佳效果非常有帮助，并且可以通过学习低级连续值参数来实现
The low-level control parameters to the grasping primitive indicate an offset for this position at which to grasp. This is beneficial since dependingon the type of handle the robot might need to reach a slightlydifferent position which can be learned via the low-levelcontinuous valued parameters

在SE2平面中，我们有一个9维向量对机器人手臂末端执行器和机器人底座的速度进行控制，其中前6个维度对应于手臂控制，最后3个维度对应于底座。我们所采用原语对该空间施加以下约束(We use velocity control for the robot arm end-effector and the robot base. With a 6dof arm and 3dof motion for the base (in the SE2 plane), we have a 9-dimensional vector -)：

$\text { Control : } \quad\left(v_{x}, v_{y}, v_{z}, v_{\text {yaw }}, v_{\text {pitch }}, v_{\text {roll }}, V_{\mathrm{x}}, V_{\mathrm{y}}, V_{\omega}\right)$

且对这个空间施加的约束如下

$\begin{aligned} \text { Unlock : } & \left(0,0, v_{z}, v_{\text {yaw }}, 0,0,0,0,0\right) \\ \text { Rotate : } & \left(0,0,0, v_{\text {yaw }}, 0,0,0,0,0\right) \\ \text { Open : } & \left(0,0,0,0,0,0, V_{\mathrm{x}}, 0,0\right) \end{aligned}$

对于控制部分，策略输出与要执行原始数据相关联索引及其相应运动低级参数。低级控制命令范围为-1至1，并具有固定持续时间执行时间。参数符号决定速度控制方向，在解锁和旋转时顺时针或逆时针，在打开时向前或向后
For control, the policy outputs an index corresponding to which primitive is to executed, as well as the corresponding low-level parameters for the motion. The low-level control command is continuous valued from -1 to 1 and executed for a fixed duration of time. The sign of the parameters dictates the direction of the velocity control, either clockwise or counter-clockwise for unlock and rotate, and forward or backward for open

7.2.2 预训练数据集

在此项目中考虑铰接对象由三个刚性部分组成：基座部分、框架部分和手柄部分

为了在操作未见过的新型铰接物体时提供泛化效益，我们首先收集了一个离线演示数据集。我们在BC训练数据集中包括每个类别3个对象，并为每个对象收集10个演示轨迹，共产生120条轨迹记录

此外，在泛化实验中还从每个类别中选取2个测试对象。训练和测试对象在视觉外观方面具有显著差异，例如纹理、颜色；在物理动力学方面也存在差异，例如弹簧加载；以及驱动方式上可能出现顺时针或逆时针等差异性质量特征

7.2.3 自主和安全的在线适应设计

如前所述，为了更好的操作BC训练领域之外的新对象，该团队开发了一个能够完全自主强化学习(RL)在线适应的系统

安全感知探索：确保机器人在进行探索时所采取行动对其硬件是安全的至关重要，特别是因为它需要与对象进行关节约束下交互。然而，由于我们使用低成本手臂（如xarm-6），无法精确支持力感应

为了部署我们的系统，在线采样期间读取关节电流并设置一种基于此机制来确保安全性。如果机器人采样到一个导致关节电流达到阈值的动作，则会立即终止该事件并重置机器人，以防止手臂从潜在地对自身造成损害，并提供负奖励以阻止此行为
奖励规格：在作者的主要实验中，一名人类操作员会根据机器人是否成功打开门来给予奖励。成功打开门则得到+1分，失败则得到0分，违反安全规定则得到-1分。这种设置是可行的，因为系统只需要很少样本进行学习(ahuman operator provides rewards- with +1 if the robot suc-cesfully opens the doors, 0 if it fails, and -1 if there is a safetyviolation. This is feasible since the system requires very fewsamples for learning)
然而，在自主学习中，我们希望消除依赖人类参与的瓶颈。因此，故研究了使用大型视觉语言模型作为奖励来源的方法(For autonomous learning however, wewould like to remove the bottleneck of relying on humansto be present in the loop. We investigate using large visionlanguage models as a source of reward)

具体而言，我们使用CLIP计算两个文本提示和机器人执行后观察到的图像之间的相似性得分，而所使用的两个提示是“关闭的门”和“打开的门”(Specifically, we use CLIP [52] to compute the similarity score between two textprompts and the image observed after robot execution. Thetwo prompts we use are - ”door that is closed” and ”door that is open”)
然后通过计算最终观察到图像与这些提示之间的相似性得分(We compute the similarity score of the finalobserved image and each of these prompts)
$\rightarrow$ 如果图像更接近指示门被打开，则给予+1奖励；否则给予0奖励(assign areward of +1 if the image is closer to the prompt indicatingthe door is open, and 0 in the other case)
$\rightarrow$ 如果违反安全规定，则给予-1奖励
重置机制：机器人采用视觉里程计，并利用底座上安装的T265跟踪摄像头导航回初始位置。每次情节结束时，机器人释放夹具并移动回原始SE2基地位置，并获取IF图像以计算奖励值。随后，在基地SE2位置上应用随机扰动以增强策略学习鲁棒性
The robot employs visual odometry,utilizing the T265 tracking camera mounted on its base,enabling it to navigate back to its initial position. At theend of every episode, the robot releases its gripper, andmoves back to the original SE2 base position, and takes animage of I f for computing reward. We then apply a randomperturbation to the SE2 position of the base so that the policylearns to be more robust
此外，在获得+1奖励（即成功打开门）时，机器人有一个脚本程序来关闭门