具身智能文章
文章平均质量分 87
Ming_Chens
接付费咨询,机器学习,深度学习,小样本学习(包括分类、检测,分割),多模态大模型,目标检测,科研辅导。
展开
-
R3M: A Universal Visual Representation for Robot Manipulation
给定一批视频,我们训练编码器产生一个表示,这样在时间上更接近的图像之间的距离小于时间或不同视频的图像。(也就是把同一视频的相近时间步的帧当作正类,其他的帧和其他的视频的图像当作负类。:存在问题:状态分布偏移是模仿学习被广泛研究的失败的模式,其中行为克隆训练的策略偏离专家状态分布。,但我们的重点是(1)从人类视频数据中学习,因此环境和任务的分布更大,以及(2)预训练视觉表示,而不是策略或模型。预训练视觉表示,以鼓励稀疏和紧凑的表示。)同样有益,但 RL 的良好预训练表示与用于模仿的良好预训练表示不同的情况。原创 2024-09-05 20:50:30 · 962 阅读 · 0 评论 -
One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation
接下来,我们在每个支持场景 si 内应用图自注意力,并在相同的支持演示中对连续帧 si 和 s′i 的 KNN 图之间进行交叉注意。IMOP不是直接学习所需的末端执行器的姿态,而是学习每个任务的关键不变区域,并在one-shot demonstration和给定的测试场景中找到不变区域之间的成对对应关系。对于每个新任务,只有一个记录的轨迹作为演示给出。提出了一种基于对应的操作任务姿态回归方法,该方法通过匹配关键视觉元素来预测机器人的动作,在KNN图上连接演示和测试场景的基于图的不变区域匹配网络。原创 2024-09-05 20:49:39 · 551 阅读 · 0 评论 -
One-Shot Imitation Learning
它处理演示网络产生的当前状态和嵌入,并输出上下文嵌入,其维度不依赖于演示的长度,或环境中的块数量。训练的时候是使用的同一任务的两个demonstration,先学一个,然后再去预测第二个demonstration的action,利用第二个demonstration的action的ground truth去进行有监督的学习(即元学习训练方法)因此,经过适当训练的网络可以学习将当前状态与演示中的相应阶段进行匹配,并推断源块和目标块的身份,表示为不同块上的软注意力权重,然后用于提取相应的位置传递给操作网络。原创 2024-09-05 20:48:01 · 805 阅读 · 0 评论 -
One-Shot Hierarchical Imitation Learning of Compound Visuomotor Tasks
我们的方法使用原始相位预测器将测试时间人类视频分解为原语,为每个原语计算一个策略序列,并依次执行每个策略,直到每个策略都被认为是完整的,再次利用相位预测器。:在本文中,我们考虑了一个学习的问题设置,通过模仿来执行多阶段任务,机器人必须映射原始图像的观察到动作,演示是通过执行整个任务的人类的原始视频提供的。:我们考虑从执行任务的人类的单个视频中学习真实机器人上的多阶段基于视觉的任务的问题,同时利用子任务与其他对象的演示数据。我们的方法利用来自先前原始技能的演示来学习识别原语的末尾并为原语元学习策略。原创 2024-09-05 20:46:56 · 353 阅读 · 0 评论 -
One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning
元测试阶段的任务和元训练阶段是类似的。符合元训练和元测试的基本的数学原理:在元训练期间,观察 ot 和 at 的动作,我们的方法学习 θ 和 Ψ。在元测试期间,只有观察结果可用,我们的方法结合学习到的先验 θ 和因子 Ψ 来推断特定于任务的策略参数 φ。与依赖精确手部检测和预先构建的视觉系统的方法相比,我们的方法是端到端训练的,:在这项工作中,我们提出了一种通过使用来自各种先前任务的人类和机器人演示数据从人类视频中一次性学习的方法,,把人类的演示作为支持集,机械臂的观察作为查询集,进行元学习的训练和测试。原创 2024-09-05 20:45:51 · 829 阅读 · 0 评论 -
One-Shot Visual Imitation Learning via Meta-Learning
在标准的MAML框架中,在“前梯度更新”和“后梯度更新”中(没搞懂这两个的区别,好像是类似MAML外循环和内循环),使用的网络是相同的,都输出的是action,并且都使用标准的loss function。本文中,我们做出了这样的尝试:“前梯度更新”和“后梯度更新”依旧共用前面所有的架构,只是输出动作之前的最后一个隐藏层不再共享,而是一人一个隐藏层,称之为两个不同的“head”。与之前关于一次性模仿的方法不同,我们的方法可以扩展到原始像素输入,并且需要来自明显更少的先前任务的数据来有效地学习新技能。原创 2024-08-28 21:15:01 · 719 阅读 · 0 评论 -
WATCH, TRY, LEARN: META-LEARNING FROM DEMONSTRATIONS AND REWARDS
本文的主要贡献是一种元学习算法,可以通过单一的演示和试验经验来学习新行为。在收到说明新目标的演示后,元训练代理可以通过少量仅具有二进制成功或失败标签的试错(人类反馈)来学习实现这一目标。我们的目标是构建一个代理,它首先可以从一个演示中推断出策略,然后在收到二进制用户反馈(成功还是失败的反馈)时使用该策略尝试任务,最后使用反馈来改进其策略,使其能够始终如一地解决任务。:在任务歧义或未观察到的动态存在的情况下,仅通过演示可能无法提供足够的信息;然而,学习复杂的基于视觉的任务可能需要不切实际的演示次数。原创 2024-08-28 21:13:59 · 279 阅读 · 0 评论 -
Transformers for One-Shot Visual Imitation
在这里,机器人被赋予一个例子,以视频或演示的形式(例如视频 + 控制遥测),并且必须利用这些信息来执行相同任务的新实例。该演示用于更新策略函数的参数,并在机器人上执行更新后的策略。这允许策略通过使用上下文帧只关注重要的特定于任务的细节,自动将其特征适应手头的任务。这里的主要结论是,在网络设计和损失函数方面注入正确的偏差——可以帮助策略在测试期间表现更好。训练神经网络来模拟给定来自另一个agent的上下文视频的ground truth机器人动作,并且在测试时提示新视频时必须泛化到看不见的任务实例。原创 2024-08-28 21:12:48 · 938 阅读 · 0 评论 -
Task-Embedded Control Networks for Few-Shot Imitation Learning
TecNets 对可以学习的任务数量没有严格的限制,并且在训练期间不容易忘记先前学习的任务(因为每个任务的s都是保存好的),或者之后。:就像人类一样,机器人应该能够利用来自先前学习任务的知识,以便在新的和不熟悉的环境中快速学习新任务。然后将来自任务嵌入网络的sentence平铺并逐通道连接到控制网络的输入(如图 2 所示),从而产生(宽度、高度、3+N)的输入图像,其中 N 表示sentence向量的长度。:演示的图像被嵌入到任务的紧凑表示中,可以组合起来创建一个句子sentence。原创 2024-08-28 21:11:42 · 624 阅读 · 0 评论 -
LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models
我们使用 LLM 直接生成计划而不是对可接受的技能进行排名,从而消除了对环境有足够的先验知识,同时还显着减少了对 LLM 的调用次数。LLM-Planner的另一个独特优势是它能够根据agent在当前环境中观察到的内容动态重新规划,从而产生更接地的plan。当训练示例较少时,更多的上下文示例(in-context example)更有益(给大语言模型的例子),因为从中检索的有用示例较少。在我们的算法中,重新规划将在两个条件中的任何一个下触发:1)代理无法执行动作,或 2)在固定时间步数之后。原创 2024-08-28 21:10:42 · 736 阅读 · 0 评论 -
RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation
(iii) 自我生成的数据。两种专家轨迹类型的主要区别在于,由于 RL 代理在现实世界中的行为方式,代理数据提供了相当平滑和高效的轨迹,而远程操作数据通常包括暂停,因为远程操作者使用类似于 bang-bang 控制器的行为。作为实现这一目标的步骤,我们在非常大的不同操作行为数据集上训练 RoboCat:精确和灵巧的基于视觉的任务,我们的agent通过利用转换器基于上下文的输入和输出可变长度序列的能力,在本地处理这些变化,而不需要常见的动作或观察表示。,这些数据后来被添加以训练我们的agent的新迭代。原创 2024-08-28 21:09:58 · 700 阅读 · 0 评论 -
Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled Datasets
使机器人能够以数据有效的方式学习新的视觉运动技能仍然是一个未解决的问题,有无数的挑战。解决这个问题的一种流行范式是利用大量未标记的数据集,这些数据集在其中具有许多行为,然后使用少量特定于任务的人工监督(即干预或演示)将策略适应特定任务。(C) 然后,我们在特定任务和重述数据的混合上使用行为克隆训练策略。通过这样做,与näıvely混合数据或仅使用特定于任务的数据相比,它能够更有效地从任务特定和离线数据的混合中学习。:首先,一个主要的限制是我们当前的查找依赖于状态和动作的压缩嵌入空间中的相似性。原创 2024-08-28 21:07:32 · 370 阅读 · 0 评论 -
PERCEIVER-ACTOR: A Multi-Task Transformer for Robotic Manipulation
这种基于体素的形式提供了强大的结构先验,有几个好处:融合多视图观察的自然方法、学习稳健的以动作为中心的 表示和启用 6-DoF 中的数据增强——所有这些都有助于通过关注多样化而不是狭窄的多任务数据来学习可泛化的技能。:在这项工作中,我们的目标是利用voxel patches 的 3D 结构,以实现与Transformer有效的6自由度行为克隆(类似于视觉转换器[4]如何利用图像patch的2D结构)。我们发现更多的潜在向量通常会提高代理对更多任务进行建模的能力,但对于简单的短视距任务,更少的潜在就足够了。原创 2024-08-16 10:39:46 · 555 阅读 · 0 评论 -
RVT-2: Learning Precise Manipulation from Few Demonstrations
然后将跨视图的热图分数反向投影到 3D 中,其中每个 3D 点接收分数,该分数是其 2D 投影接收的分数的平均值。通过我们的架构和系统级的改进,我们能够提高RVT的速度和有效性。使用架构和系统级改进的组合,我们提出了 RVT-2,这是一种多任务 3D 操作模型,在训练中快 6 倍,推理速度比其前身 RVT 快 2 倍。最后,虽然 RVT-2 将多任务 3D 操作的整体性能提高了 17 个点,但该任务仍然远未通过 RVT2 解决,在模拟中的成功率为 82%,在现实世界中为 72%。是对上一篇RVT 的改进。原创 2024-08-16 10:38:34 · 275 阅读 · 0 评论 -
RVT: Robotic View Transformer for 3D Object Manipulation
具体来说,对于每个视图,我们渲染三个图像图,共7个通道:RGB (3 channels), (2) depth (1 channel), and (3) (x, y, z) coordinates of the points in the world frame (3 channels). 重新渲染过程将输入图像解耦为喂给transformer的图像。(2) 沿空间维度的最大池化图像特征的串联。正如预期的那样,以更高的分辨率渲染的虚拟图像帮助,因为虚拟图像分辨率为220的RVT优于100的图像。原创 2024-08-16 10:37:42 · 458 阅读 · 0 评论 -
OpenVLA: An Open-Source Vision-Language-Action Model
在撰写本文时,完整的 OpenX 数据集由 70 多个单独的机器人数据集组成,具有超过 2M 机器人轨迹,这些轨迹被汇集成一个连贯且易于使用的数据格式,以巨大的社区努力。我们为 OpenVLA 模型测试了一个简单的微调方法:对所有模型参数进行完全微调,使用目标任务的 10-150 个演示的小型数据集。然而,VLA 对机器人技术的广泛采用具有挑战性,因为 1)现有的 VLA 在很大程度上是封闭的并且公众无法访问的,以及 2)机器人动作预测数据和互联网规模的视觉语言数据的联合训练是否大大提高了VLA的性能。原创 2024-08-15 16:56:41 · 894 阅读 · 0 评论 -
Octo: An Open-Source Generalist Robot Policy
仍有改进模型的工作,包括更好的语言条件反射,改善手腕摄像头的支持,并将数据纳入最佳演示之外。重要的是,我们发现基于 ResNet 的架构在小数据集上训练时比 ViT 表现更好,例如,在我们的“从头开始”比较中,强调大型 Transformer 策略非常适合跨不同数据集的可扩展训练。:在不同的机器人数据集上预先训练的大型策略有可能转换机器人学习:这种具备多种能力的机器人策略不是从头开始训练新的策略,而是。:我们设计了一个预训练 多种能力的机器人策略的系统,更适合下游机器人应用中的多样性。原创 2024-08-15 16:55:44 · 828 阅读 · 0 评论 -
A3VLM: Actionable Articulation-Aware Vision Language Model
边界框B的宽度、高度和长度是根据链路的最远点与中心之间的距离来计算的。:a representation that describes the object's articulation structure and action affordance simultaneously. 与之前的以机器人为中心的动作表示[3,21]相比,A3VLM的表示是以对象为中心的,这使得在不收集昂贵的机器人交互数据的情况下学习对象的可操作模型,并且各种机器人可以使用相同的学习对象模型。:了解铰接物体的关节和动作可供性。原创 2024-08-15 16:54:41 · 1011 阅读 · 0 评论 -
ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Larg
为了将这种特定于机器人的知识与 MLLM 固有的视觉推理能力无缝集成,我们采用了。affordances可能因手头的特定任务 T 而异,工具的不同区域可用于不同的功能。ManipVQA 训练协议集成了一对主要的视觉语言任务:引用表达理解 (REC) 和引用表达生成 (REG)(REC与REG刚好是一对对应的任务)。:尽管MlLMs取得了进步,但传统的 MLLM 通常在通用图像文本对上进行训练,缺乏必要的机器人知识,例如。我们对自然语言表示和训练样本中的可视性和物理概念进行建模,并与一般的VQA框架一致。原创 2024-08-15 16:52:50 · 682 阅读 · 0 评论 -
Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model
可以是任意的视觉模型,比如SAM,clip)。:受llm和多模态基础模型结合的巨大潜力的启发,我们的目标是开发一般的机器人操作系统。(middle-level decision-making actions,应该指的就是生成的可以直接调用API的code,不是hilg-level的规划,也不是直接生成low-level的动作。. 任务相关变量,包括任务指令中使用的image crops和图像到图像的转换,存储在可以通过API访问的环境。,基础模型的任何改进都可以提高动作的准确性,而不会带来额外的成本。原创 2024-08-15 16:50:54 · 627 阅读 · 0 评论 -
Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation
随后,由于预训练的 MLLM 缺乏故障识别能力(使用失败的示例进行微调,使模型具备失败识别能力),我们使用图 2 步骤 2 所示的失败检测提示来微调我们模型的注入适配器。具体做法为:为了生成每个对象的局部区域的旋转,我们根据模型预测的接触点选择一个操作框,并在选定的框区域内生成旋转。最后,我们将位置和旋转的校正反馈作为模型的输入提示相结合。:为了释放一般的MLLM作为端到端机器人agent,我们引入了一个自校正(SC)-MLLM,使我们的模型不仅能够预测末端执行器的姿态,而且还能够自主识别和纠正故障动作。原创 2024-08-14 11:58:38 · 583 阅读 · 0 评论 -
Autonomous Interactive Correction MLLM for Robust Robotic Manipulation
对于不可移动的情况,我们利用法线方向与对象交互,如果位置是可移动的,通常会导致轻微的运动。末端执行器的运动向量, 取末端执行器的三个点确定姿势(具体看原文),如果有多次将物体移动的错误,就把这多个错误(多次尝试)进行 perform cross products,得到更加准确的axis direction。为了定义拉动的成功,我们需要初始物体和最终物体姿态之间的0.01多个单元的差异,或者相对于铰接部分的总运动范围0.5以上,我们还需要预测夹持器方向与物体实际运动方向的点积大于0.3。原创 2024-08-14 11:57:02 · 993 阅读 · 0 评论 -
REFLECT: Summarizing Robot Experiences for FaiLure Explanation and CorrecTion
此外,对于可以改变状态的对象(例如微波可以打开和关闭),我们根据对象的检测到的边界框裁剪图像并计算裁剪图像和预定义对象状态标签列表之间的 CLIP 嵌入 [33] 的余弦相似度。(注意这里的帧是图像信息和音频信息的混合)为了确保语言模型生成的计划在环境中可执行,我们采用了Huang等人的思想,使用大型预训练句子嵌入模型将每个LLM生成的动作映射到任务环境中最接近的可执行动作。,这可以通过一种方法(例如提示 LLM)来放松(可以通过LLM达到更多的状态定义,更加泛化),该方法输出给定对象类别的可能状态。原创 2024-08-14 11:54:10 · 838 阅读 · 0 评论 -
ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation
具体来说,给定当前的测试样本,我们引入了一个额外的推理步骤来提示模型以评估预测的位置是否会导致成功的操作。这里主要就是样本的构建,通过affordance map,超过0.8的点确定为positive,低于0.2的点确定为negative,这样就可以通过随机采样positive和negative点集,构建pair数据来对模型进行微调,让大模型具备判断哪一些像素点可以用来操作物体。具体来说,在当前的测试样本中,我们利用操作成功或失败的结果来监督模型对预测姿态是否会导致成功的操作,只更新部分参数的评估。原创 2024-08-14 11:52:05 · 727 阅读 · 0 评论 -
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
从两个函数来看,大同小异,都是先初始化一个三维数组(张量)映射,然后各自检测目标detect('handle')和detect('vase'),不同点就是affordance_map是需要将目标对象的位置(top_handle.pos)都设置为1,在constraint_map里面是将检测到的对象所占用的格子(vase.occupancy_grid)的位置都设置为-1,最后两个分别返回其对应的值图。尽管取得了进展,但大多数仍然依赖于预定义的运动原语来执行与环境的物理交互,这仍然是一个主要的瓶颈。原创 2024-08-13 14:33:41 · 901 阅读 · 0 评论 -
SayCan:Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
当决定下一步的决策时,首先让 LLM 根据task给出一些可能的步骤(只有文本,无环境交互)和他们的概率,然后使用另一个模型给出当前状况下每个动作可以完成的概率(文中叫affordance,有文本,有环境交互),两个概率乘起来就是下一步planning最优的选择。作者发现训练一个BC policy的成功率更高,所以在执行的时候用BC的policy,但是估计概率还是用RL的概率(这里感觉有点奇怪……每一步决策,遍历所有task,计算他们的概率=LLM认为的概率*RL认为可执行的概率,最后取max,然后执行。原创 2024-08-12 17:07:37 · 503 阅读 · 0 评论 -
ALOHA:Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
(统一目标的实现方式可以是不一样的,所以采用VAE的生成方式,模型每次生成的也可能是不一样的,但是能达到目的)编码器在测试时被丢弃。然而,模仿学习提出了其自身的挑战,特别是在高精度领域:策略中的错误会随着时间的推移而复合,人类演示可能是非平稳的。我们受到动作分块的启发(动作分块就是将动作拆分为一个个的执行单元),这是一个神经科学概念,其中单个动作被组合在一起并执行为一个单元,使它们更有效地存储和执行。模仿学习存在的问题:预测动作中的小错误会导致状态的巨大差异,加剧了模仿学习的“复合错误”问题。原创 2024-08-12 17:02:14 · 587 阅读 · 0 评论 -
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning
具体来说,我们制定了一个指令模板,其中包含机器人类型 R(例如,Franka、UR5、xArm)、控制模式 M(例如关节或末端执行器控制、绝对或增量控制)、任务指令 I(例如,“打开抽屉”)、本体感觉信息 S(例如位置或速度)以及指示要预测的未来动作数量的查询,表示为 n。通过利用共享的视觉动作嵌入空间,我们的解码器产生机器人系统可以使用的响应。:在这里,我们提出了一种视觉动作指令调整方法,可以弥合语言模型的基本预训练目标——下一个词预测)之间的差距,以及使模型能够处理各种机器人设置的目标。原创 2024-08-12 16:58:20 · 797 阅读 · 0 评论 -
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy
相反,我们在对象检测的帮助下将每个额外的图像转换为语言描述。与inBC 相比,我们将此在文本中采用额外对象检测结果的方法命名为 Description-Instruct-BC(DinBC,我们在这些数据上训练的模型称为与前面相同的名称)。与 VIMA [43] 相比,我们最好的模型不仅取得了更好的性能,而且需要更少的输入,并且仅在 VIMA 中使用的 12% 数据上进行训练。也就是说,模型的输出是带有各种标识符的文本,标注了物体的位置旋转角度之类的信息(通过特定的标识符说明物体位置、旋转角度之类的信息)。原创 2024-08-12 16:56:34 · 775 阅读 · 0 评论 -
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuni
(这一点与VIMA不同,VIMA中是behavioral cloning,感觉behavioral cloning就是这里说的imitating learning) 给定一个轨迹序列:given any sequence of robot trajectory ωT = (o0, a0, o1, . . . , aT −1, oT ),其中(o0, . . . , oT)表示observations序列,(a0, . . . , aT −1)表示动作序列。,并自回归解码每个令牌,如图1所示。原创 2024-08-12 16:54:40 · 598 阅读 · 0 评论 -
SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation
为了与基线进行公平比较,我们使用与最先进方法 (Goyal et al., 2023) 相同的设置,通过使用 18 个任务,实验中有 249 个变化。此外,我们通过在 6 个新任务中的少样本适应来评估 SAM-E 的泛化能力。重大区别:在infer的时候,不需要预测下一时刻的keypoint gripper pose,直接预测action sequence,因此大大提升效率。受最近关于利用网络规模数据集的视觉基础模型的研究的启发,并展示了稳健的零样本和少样本泛化,我们进一步深入研究了。原创 2024-08-10 17:07:51 · 340 阅读 · 0 评论 -
PaLM-E: An Embodied Multimodal Language Model
多种任务:standard visual-language tasks such as VQA and image captioning, as well as language tasks. 我们的结果表明,与单个任务的训练模型相比,多任务训练提高了性能。PaLM-E 的输出是由模型自回归生成的文本,可以是问题的答案,也可以是 PaLM-E 以文本形式产生的一系列决策,这些决策应该由机器人执行。提出了具身语言模型PaLM-E,将现实世界的连续传感器模式直接合并到语言模型中,从而建立单词和感知之间的联系。原创 2024-08-09 15:46:07 · 537 阅读 · 0 评论 -
VIMA: General Robot Manipulation with Multimodal Prompts
机器人控制器(解码器)由P和历史轨迹H之间的一系列交叉注意层为提示条件,交叉注意力中的Q是轨迹得来的,K和V都是从Prompt得来的。右边预测的是个action_token,与obs_token进行交错的放置,这个预测的动作token就是前面的act_tokens,感觉有点类似于cls token,与其他的obs_token进行交互。我们假设数据效率可归因于 VIMA 配方中使用的以对象为中心的表示,这比直接从低数据机制中的像素中学习更容易过度拟合。通过对模型或者方法的改进,提高数据利用的效率。原创 2024-08-08 15:52:54 · 808 阅读 · 0 评论