KKdlg-CSDN博客

原创小样本学习介绍（超详细）

当我开始接触“小样本”这个术语的时候，给我的第一感觉就是他的数据集很小（这也是我入坑小样本学习最开始的原因，以为炼丹不需要太久），相信很多人有个同样的感觉，但是事实上并不是这样的，在我将小样本学习这一方向介绍给自己的同门或者其他同学的过程中，我发现很多人也都对小样本有着同样的误解。实际上，小样本的“小”并不是体现在数据集上。相反，小样本的数据集是很大的，比如常用的mini-imagenet有6万张图片，更大的tiered-ImageNet有779165张图片，所以说数据集并不小。

2024-01-04 14:12:36 10841 1

原创 The Ingredients for Robotic Diffusion Transformers

最后，请注意 D.P.Transformer 基线无法解决我们的任何任务，因为不稳定的训练会导致嘈杂的/不安全的动作预测。因此，我们得出结论，DiT-Block 策略比基线更稳定地学习扩散策略转换器。实验：我们的第一个任务集考虑了双手动、低成本的 ALOHA 机器人 [8]，这使我们能够研究具有高度灵巧、精确行为的挑战性场景。这个简单的技巧在包含超过 1000 个决策的长范围、灵巧的、真实世界的操作任务上将性能提高了 30%+（牛逼）！此外，我们的观察tokenizer的消融表明，，解码器块利用定制的。

2024-12-12 09:14:07 1185

原创 Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning

使用这种联合observation-action表示，它使用学习的扩散过程计算低级机器人动作，该过程迭代更新机器人的虚拟渲染。这种空间统一简化了学习问题，并引入了对样本效率和空间泛化至关重要的归纳偏差。实验：simulation setting：RLBench。与其他的方法相反，我们建议在统一的观察-动作空间中使用扩散模型。该策略消除了学习单独观察和动作空间之间复杂映射的复杂性，简化了学习过程并提高其样本效率和泛化能力。在观察空间中表示低级动作使我们能够简化学习问题并提高学习策略的样本效率和空间泛化能力。

2024-12-10 16:37:35 950

原创 Effective Tuning Strategies for Generalist Robot Manipulation Policies

Octo已经证明，扩散头优于GMPs的朴素线性头，这与预期一致。然而，在微调上下文中，我们的结果与此相矛盾。如III所示，线性头明显优于扩散头，在20个演示设置中实现了近两倍的精度。只微调head 的效果不好，需要全部微调。此外，微调GMP的优势在于few-shot学习场景，而在数据丰富的环境中，其准确性优势可能会降低。首先，与绝对关节位置相比，Delta 关节位置显然与预训练的差距更小，因为两者都使用 delta 动作空间。实验：各种消融实验，设计的都比较合理。，但在足够的数据下变得没有必要。

2024-12-10 16:13:40 896

原创 3D Diffusion Policy

DP3 使用直接高效的 MLP 编码器将稀疏采样的点云编码为紧凑的 3D 表示。随后，DP3 将随机噪声去噪为连贯的动作序列，以这种紧凑的 3D 表示和机器人姿势为条件。：为了解决这个具有挑战性的问题，我们提出了 3D 扩散策略 (DP3)，这是一种新的视觉模仿学习方法，它将 3D 视觉表示的力量整合到扩散策略中，这是一种条件动作生成模型。这些消融研究强调，DP3 的成功不仅仅是由于使用了 3D 视觉表示，而且还因为它精心设计了(与其他3d的方法进行对比，发表时间：Sep 2024。

2024-12-10 15:58:52 537

原创 RDT-1B: A DIFFUSION FOUNDATION MODEL FORBIMANUAL MANIPULATION

（为了进一步使在异构数据上训练 RDT，我们提出了物理可解释的统一动作空间，这是各种带有夹持器臂的机器人的统一动作格式。这种创新的格式减轻了不同机器人之间的潜在冲突，同时保留了原始动作的物理含义，这可以促进模型学习跨不同机器人数据集的可泛化物理知识。：RDT建立在扩散模型的基础上，有效地表示多模态，具有可扩展的Transformer的创新设计来。，它可以统一各种机器人的动作表示，同时保留原始动作的物理含义，促进学习可转移的物理知识。，与传统的 DiT 中的类标签条件形成对比）。

2024-12-10 15:18:22 1069

原创 ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation

3）我们在两个真实机器人平台上展示了系统实现，该平台将语言指令和 RGB-D 观察作为输入，并为各种操作任务生成多阶段、野外、双手动和反应行为，所有这些都没有特定于任务的数据或环境模型。实验：各种各样真实场景的任务（包括单臂和双臂，包括具有常识知识的野外规范、具有时空依赖性的多阶段任务、与几何意识的双手动协调以及与人类和干扰下的反应性）。，使它们 1) 适用于不同的任务，2) 无需手动标记，以及 3) 由现成的求解器可实时生成机器人动作。用于在 SE(3) 中获得密集的末端执行器动作序列，受生成的约束。

2024-12-10 14:51:31 717

原创 Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

可以完成不同的下游任务：we use task-specific action decoders, dubbed "head", to produce the action outputs.在预训练阶段，每次迭代只更新主干（trunk）参数，并根据训练批次采样更新每个异构实施例和任务的stems and heads。提出Heterogeneous Pre-trained Transformers (：如何处理本体和视觉信息？实验：最小的HPT只有3.1M，最大的1.1B。：没有使用语言（指令）。

2024-12-10 11:07:17 979

原创 R3M: A Universal Visual Representation for Robot Manipulation

给定一批视频，我们训练编码器产生一个表示，这样在时间上更接近的图像之间的距离小于时间或不同视频的图像。（也就是把同一视频的相近时间步的帧当作正类，其他的帧和其他的视频的图像当作负类。：存在问题：状态分布偏移是模仿学习被广泛研究的失败的模式，其中行为克隆训练的策略偏离专家状态分布。，但我们的重点是（1）从人类视频数据中学习，因此环境和任务的分布更大，以及（2）预训练视觉表示，而不是策略或模型。预训练视觉表示，以鼓励稀疏和紧凑的表示。）同样有益，但 RL 的良好预训练表示与用于模仿的良好预训练表示不同的情况。

2024-09-05 20:50:30 1350

原创 One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

接下来，我们在每个支持场景 si 内应用图自注意力，并在相同的支持演示中对连续帧 si 和 s′i 的 KNN 图之间进行交叉注意。IMOP不是直接学习所需的末端执行器的姿态，而是学习每个任务的关键不变区域，并在one-shot demonstration和给定的测试场景中找到不变区域之间的成对对应关系。对于每个新任务，只有一个记录的轨迹作为演示给出。提出了一种基于对应的操作任务姿态回归方法，该方法通过匹配关键视觉元素来预测机器人的动作，在KNN图上连接演示和测试场景的基于图的不变区域匹配网络。

2024-09-05 20:49:39 854

原创 One-Shot Imitation Learning

它处理演示网络产生的当前状态和嵌入，并输出上下文嵌入，其维度不依赖于演示的长度，或环境中的块数量。训练的时候是使用的同一任务的两个demonstration，先学一个，然后再去预测第二个demonstration的action，利用第二个demonstration的action的ground truth去进行有监督的学习（即元学习训练方法）因此，经过适当训练的网络可以学习将当前状态与演示中的相应阶段进行匹配，并推断源块和目标块的身份，表示为不同块上的软注意力权重，然后用于提取相应的位置传递给操作网络。

2024-09-05 20:48:01 1116

原创 One-Shot Hierarchical Imitation Learning of Compound Visuomotor Tasks

我们的方法使用原始相位预测器将测试时间人类视频分解为原语，为每个原语计算一个策略序列，并依次执行每个策略，直到每个策略都被认为是完整的，再次利用相位预测器。：在本文中，我们考虑了一个学习的问题设置，通过模仿来执行多阶段任务，机器人必须映射原始图像的观察到动作，演示是通过执行整个任务的人类的原始视频提供的。：我们考虑从执行任务的人类的单个视频中学习真实机器人上的多阶段基于视觉的任务的问题，同时利用子任务与其他对象的演示数据。我们的方法利用来自先前原始技能的演示来学习识别原语的末尾并为原语元学习策略。

2024-09-05 20:46:56 502

原创 One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning

元测试阶段的任务和元训练阶段是类似的。符合元训练和元测试的基本的数学原理：在元训练期间，观察 ot 和 at 的动作，我们的方法学习 θ 和 Ψ。在元测试期间，只有观察结果可用，我们的方法结合学习到的先验 θ 和因子 Ψ 来推断特定于任务的策略参数 φ。与依赖精确手部检测和预先构建的视觉系统的方法相比，我们的方法是端到端训练的，：在这项工作中，我们提出了一种通过使用来自各种先前任务的人类和机器人演示数据从人类视频中一次性学习的方法，，把人类的演示作为支持集，机械臂的观察作为查询集，进行元学习的训练和测试。

2024-09-05 20:45:51 982

原创 One-Shot Visual Imitation Learning via Meta-Learning

在标准的MAML框架中，在“前梯度更新”和“后梯度更新”中（没搞懂这两个的区别，好像是类似MAML外循环和内循环），使用的网络是相同的，都输出的是action，并且都使用标准的loss function。本文中，我们做出了这样的尝试：“前梯度更新”和“后梯度更新”依旧共用前面所有的架构，只是输出动作之前的最后一个隐藏层不再共享，而是一人一个隐藏层，称之为两个不同的“head”。与之前关于一次性模仿的方法不同，我们的方法可以扩展到原始像素输入，并且需要来自明显更少的先前任务的数据来有效地学习新技能。

2024-08-28 21:15:01 995

原创 WATCH, TRY, LEARN: META-LEARNING FROM DEMONSTRATIONS AND REWARDS

本文的主要贡献是一种元学习算法，可以通过单一的演示和试验经验来学习新行为。在收到说明新目标的演示后，元训练代理可以通过少量仅具有二进制成功或失败标签的试错（人类反馈）来学习实现这一目标。我们的目标是构建一个代理，它首先可以从一个演示中推断出策略，然后在收到二进制用户反馈(成功还是失败的反馈)时使用该策略尝试任务，最后使用反馈来改进其策略，使其能够始终如一地解决任务。：在任务歧义或未观察到的动态存在的情况下，仅通过演示可能无法提供足够的信息；然而，学习复杂的基于视觉的任务可能需要不切实际的演示次数。

2024-08-28 21:13:59 374

原创 Transformers for One-Shot Visual Imitation

在这里，机器人被赋予一个例子，以视频或演示的形式（例如视频 + 控制遥测），并且必须利用这些信息来执行相同任务的新实例。该演示用于更新策略函数的参数，并在机器人上执行更新后的策略。这允许策略通过使用上下文帧只关注重要的特定于任务的细节，自动将其特征适应手头的任务。这里的主要结论是，在网络设计和损失函数方面注入正确的偏差——可以帮助策略在测试期间表现更好。训练神经网络来模拟给定来自另一个agent的上下文视频的ground truth机器人动作，并且在测试时提示新视频时必须泛化到看不见的任务实例。

2024-08-28 21:12:48 1046

原创 Task-Embedded Control Networks for Few-Shot Imitation Learning

TecNets 对可以学习的任务数量没有严格的限制，并且在训练期间不容易忘记先前学习的任务（因为每个任务的s都是保存好的），或者之后。：就像人类一样，机器人应该能够利用来自先前学习任务的知识，以便在新的和不熟悉的环境中快速学习新任务。然后将来自任务嵌入网络的sentence平铺并逐通道连接到控制网络的输入（如图 2 所示），从而产生（宽度、高度、3+N）的输入图像，其中 N 表示sentence向量的长度。：演示的图像被嵌入到任务的紧凑表示中，可以组合起来创建一个句子sentence。

2024-08-28 21:11:42 728

原创 LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models

我们使用 LLM 直接生成计划而不是对可接受的技能进行排名，从而消除了对环境有足够的先验知识，同时还显着减少了对 LLM 的调用次数。LLM-Planner的另一个独特优势是它能够根据agent在当前环境中观察到的内容动态重新规划，从而产生更接地的plan。当训练示例较少时，更多的上下文示例（in-context example）更有益（给大语言模型的例子），因为从中检索的有用示例较少。在我们的算法中，重新规划将在两个条件中的任何一个下触发：1）代理无法执行动作，或 2）在固定时间步数之后。

2024-08-28 21:10:42 1170

原创 RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation

(iii) 自我生成的数据。两种专家轨迹类型的主要区别在于，由于 RL 代理在现实世界中的行为方式，代理数据提供了相当平滑和高效的轨迹，而远程操作数据通常包括暂停，因为远程操作者使用类似于 bang-bang 控制器的行为。作为实现这一目标的步骤，我们在非常大的不同操作行为数据集上训练 RoboCat：精确和灵巧的基于视觉的任务，我们的agent通过利用转换器基于上下文的输入和输出可变长度序列的能力，在本地处理这些变化，而不需要常见的动作或观察表示。，这些数据后来被添加以训练我们的agent的新迭代。

2024-08-28 21:09:58 843

原创 Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled Datasets

使机器人能够以数据有效的方式学习新的视觉运动技能仍然是一个未解决的问题，有无数的挑战。解决这个问题的一种流行范式是利用大量未标记的数据集，这些数据集在其中具有许多行为，然后使用少量特定于任务的人工监督（即干预或演示）将策略适应特定任务。(C) 然后，我们在特定任务和重述数据的混合上使用行为克隆训练策略。通过这样做，与näıvely混合数据或仅使用特定于任务的数据相比，它能够更有效地从任务特定和离线数据的混合中学习。：首先，一个主要的限制是我们当前的查找依赖于状态和动作的压缩嵌入空间中的相似性。

2024-08-28 21:07:32 487

原创 MAML算法详解

MAML是元学习的经典论文，也是基于optimization based meta-learning方法的开山之作，后序很多工作都是follow这篇工作。目前已经有13140的引用，其算法思想很巧妙，值得反复品读。，这样在泛化到新的任务的时候，模型就能只进行少量的优化，就能达到一个比较好的性能。而传统的预训练是为了找到一组在预训练的所有任务上表现得都比较好的参数。这里参考李宏毅老师的讲解，

2024-08-25 22:05:20 541

原创 PERCEIVER-ACTOR: A Multi-Task Transformer for Robotic Manipulation

这种基于体素的形式提供了强大的结构先验，有几个好处：融合多视图观察的自然方法、学习稳健的以动作为中心的表示和启用 6-DoF 中的数据增强——所有这些都有助于通过关注多样化而不是狭窄的多任务数据来学习可泛化的技能。：在这项工作中，我们的目标是利用voxel patches 的 3D 结构，以实现与Transformer有效的6自由度行为克隆(类似于视觉转换器[4]如何利用图像patch的2D结构)。我们发现更多的潜在向量通常会提高代理对更多任务进行建模的能力，但对于简单的短视距任务，更少的潜在就足够了。

2024-08-16 10:39:46 752

原创 RVT-2: Learning Precise Manipulation from Few Demonstrations

然后将跨视图的热图分数反向投影到 3D 中，其中每个 3D 点接收分数，该分数是其 2D 投影接收的分数的平均值。通过我们的架构和系统级的改进，我们能够提高RVT的速度和有效性。使用架构和系统级改进的组合，我们提出了 RVT-2，这是一种多任务 3D 操作模型，在训练中快 6 倍，推理速度比其前身 RVT 快 2 倍。最后，虽然 RVT-2 将多任务 3D 操作的整体性能提高了 17 个点，但该任务仍然远未通过 RVT2 解决，在模拟中的成功率为 82%，在现实世界中为 72%。是对上一篇RVT 的改进。

2024-08-16 10:38:34 683

原创 RVT: Robotic View Transformer for 3D Object Manipulation

具体来说，对于每个视图，我们渲染三个图像图，共7个通道:RGB (3 channels), (2) depth (1 channel), and (3) (x, y, z) coordinates of the points in the world frame (3 channels). 重新渲染过程将输入图像解耦为喂给transformer的图像。(2) 沿空间维度的最大池化图像特征的串联。正如预期的那样，以更高的分辨率渲染的虚拟图像帮助，因为虚拟图像分辨率为220的RVT优于100的图像。

2024-08-16 10:37:42 739

原创 OpenVLA: An Open-Source Vision-Language-Action Model

在撰写本文时，完整的 OpenX 数据集由 70 多个单独的机器人数据集组成，具有超过 2M 机器人轨迹，这些轨迹被汇集成一个连贯且易于使用的数据格式，以巨大的社区努力。我们为 OpenVLA 模型测试了一个简单的微调方法：对所有模型参数进行完全微调，使用目标任务的 10-150 个演示的小型数据集。然而，VLA 对机器人技术的广泛采用具有挑战性，因为 1）现有的 VLA 在很大程度上是封闭的并且公众无法访问的，以及 2）机器人动作预测数据和互联网规模的视觉语言数据的联合训练是否大大提高了VLA的性能。

2024-08-15 16:56:41 1966 2

原创 Octo: An Open-Source Generalist Robot Policy

仍有改进模型的工作，包括更好的语言条件反射，改善手腕摄像头的支持，并将数据纳入最佳演示之外。重要的是，我们发现基于 ResNet 的架构在小数据集上训练时比 ViT 表现更好，例如，在我们的“从头开始”比较中，强调大型 Transformer 策略非常适合跨不同数据集的可扩展训练。：在不同的机器人数据集上预先训练的大型策略有可能转换机器人学习:这种具备多种能力的机器人策略不是从头开始训练新的策略，而是。：我们设计了一个预训练多种能力的机器人策略的系统，更适合下游机器人应用中的多样性。

2024-08-15 16:55:44 1348

原创 A3VLM: Actionable Articulation-Aware Vision Language Model

边界框B的宽度、高度和长度是根据链路的最远点与中心之间的距离来计算的。：a representation that describes the object's articulation structure and action affordance simultaneously. 与之前的以机器人为中心的动作表示[3,21]相比，A3VLM的表示是以对象为中心的，这使得在不收集昂贵的机器人交互数据的情况下学习对象的可操作模型，并且各种机器人可以使用相同的学习对象模型。：了解铰接物体的关节和动作可供性。

2024-08-15 16:54:41 1314

原创 ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Larg

为了将这种特定于机器人的知识与 MLLM 固有的视觉推理能力无缝集成，我们采用了。affordances可能因手头的特定任务 T 而异，工具的不同区域可用于不同的功能。ManipVQA 训练协议集成了一对主要的视觉语言任务：引用表达理解 (REC) 和引用表达生成 (REG)（REC与REG刚好是一对对应的任务）。：尽管MlLMs取得了进步，但传统的 MLLM 通常在通用图像文本对上进行训练，缺乏必要的机器人知识，例如。我们对自然语言表示和训练样本中的可视性和物理概念进行建模，并与一般的VQA框架一致。

2024-08-15 16:52:50 927

原创 Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model

可以是任意的视觉模型，比如SAM，clip）。：受llm和多模态基础模型结合的巨大潜力的启发，我们的目标是开发一般的机器人操作系统。（middle-level decision-making actions，应该指的就是生成的可以直接调用API的code，不是hilg-level的规划，也不是直接生成low-level的动作。. 任务相关变量，包括任务指令中使用的image crops和图像到图像的转换，存储在可以通过API访问的环境。，基础模型的任何改进都可以提高动作的准确性，而不会带来额外的成本。

2024-08-15 16:50:54 859

原创 Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation

随后，由于预训练的 MLLM 缺乏故障识别能力（使用失败的示例进行微调，使模型具备失败识别能力），我们使用图 2 步骤 2 所示的失败检测提示来微调我们模型的注入适配器。具体做法为：为了生成每个对象的局部区域的旋转，我们根据模型预测的接触点选择一个操作框，并在选定的框区域内生成旋转。最后，我们将位置和旋转的校正反馈作为模型的输入提示相结合。：为了释放一般的MLLM作为端到端机器人agent，我们引入了一个自校正(SC)-MLLM，使我们的模型不仅能够预测末端执行器的姿态，而且还能够自主识别和纠正故障动作。

2024-08-14 11:58:38 827

原创 Autonomous Interactive Correction MLLM for Robust Robotic Manipulation

对于不可移动的情况，我们利用法线方向与对象交互，如果位置是可移动的，通常会导致轻微的运动。末端执行器的运动向量，取末端执行器的三个点确定姿势（具体看原文），如果有多次将物体移动的错误，就把这多个错误（多次尝试）进行 perform cross products，得到更加准确的axis direction。为了定义拉动的成功，我们需要初始物体和最终物体姿态之间的0.01多个单元的差异，或者相对于铰接部分的总运动范围0.5以上，我们还需要预测夹持器方向与物体实际运动方向的点积大于0.3。

2024-08-14 11:57:02 1141

原创 REFLECT: Summarizing Robot Experiences for FaiLure Explanation and CorrecTion

此外，对于可以改变状态的对象（例如微波可以打开和关闭），我们根据对象的检测到的边界框裁剪图像并计算裁剪图像和预定义对象状态标签列表之间的 CLIP 嵌入 [33] 的余弦相似度。（注意这里的帧是图像信息和音频信息的混合）为了确保语言模型生成的计划在环境中可执行，我们采用了Huang等人的思想，使用大型预训练句子嵌入模型将每个LLM生成的动作映射到任务环境中最接近的可执行动作。，这可以通过一种方法（例如提示 LLM）来放松（可以通过LLM达到更多的状态定义，更加泛化），该方法输出给定对象类别的可能状态。

2024-08-14 11:54:10 1055

原创 ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation

具体来说，给定当前的测试样本，我们引入了一个额外的推理步骤来提示模型以评估预测的位置是否会导致成功的操作。这里主要就是样本的构建，通过affordance map，超过0.8的点确定为positive，低于0.2的点确定为negative，这样就可以通过随机采样positive和negative点集，构建pair数据来对模型进行微调，让大模型具备判断哪一些像素点可以用来操作物体。具体来说，在当前的测试样本中，我们利用操作成功或失败的结果来监督模型对预测姿态是否会导致成功的操作，只更新部分参数的评估。

2024-08-14 11:52:05 972

原创 VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

从两个函数来看，大同小异，都是先初始化一个三维数组(张量)映射，然后各自检测目标detect('handle')和detect('vase')，不同点就是affordance_map是需要将目标对象的位置(top_handle.pos)都设置为1，在constraint_map里面是将检测到的对象所占用的格子(vase.occupancy_grid)的位置都设置为-1，最后两个分别返回其对应的值图。尽管取得了进展，但大多数仍然依赖于预定义的运动原语来执行与环境的物理交互，这仍然是一个主要的瓶颈。

2024-08-13 14:33:41 1242

原创 SayCan：Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

当决定下一步的决策时，首先让 LLM 根据task给出一些可能的步骤（只有文本，无环境交互）和他们的概率，然后使用另一个模型给出当前状况下每个动作可以完成的概率（文中叫affordance，有文本，有环境交互），两个概率乘起来就是下一步planning最优的选择。作者发现训练一个BC policy的成功率更高，所以在执行的时候用BC的policy，但是估计概率还是用RL的概率（这里感觉有点奇怪……每一步决策，遍历所有task，计算他们的概率=LLM认为的概率*RL认为可执行的概率，最后取max，然后执行。

2024-08-12 17:07:37 943

原创 Gato：A Generalist Agent

是因为模型越大前向耗时也就越大，在NLP、图像这种对前向耗时不敏感的领域倒没什么问题，但是对于RL中的控制任务，环境并不会卡住来等待模型返回动作，如果前向时间过长，可能下一个状态都产生了，模型还没有返回上一个状态的动作。但是RL中的控制任务，就比较麻烦了。Gato将NLP，Image，和RL领域在一定程度上进行了整合，将多模态输入统一为token序列，并把各种类型任务转化成统一的序列生成，使用一个transformer模型完成了600多个不同的任务，Gato的实验结果也证明了该统一思路的可行性。

2024-08-12 17:06:30 952

原创 ALOHA：Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

（统一目标的实现方式可以是不一样的，所以采用VAE的生成方式，模型每次生成的也可能是不一样的，但是能达到目的）编码器在测试时被丢弃。然而，模仿学习提出了其自身的挑战，特别是在高精度领域：策略中的错误会随着时间的推移而复合，人类演示可能是非平稳的。我们受到动作分块的启发（动作分块就是将动作拆分为一个个的执行单元），这是一个神经科学概念，其中单个动作被组合在一起并执行为一个单元，使它们更有效地存储和执行。模仿学习存在的问题：预测动作中的小错误会导致状态的巨大差异，加剧了模仿学习的“复合错误”问题。

2024-08-12 17:02:14 938

原创 LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning

具体来说，我们制定了一个指令模板，其中包含机器人类型 R（例如，Franka、UR5、xArm）、控制模式 M（例如关节或末端执行器控制、绝对或增量控制）、任务指令 I（例如，“打开抽屉”）、本体感觉信息 S（例如位置或速度）以及指示要预测的未来动作数量的查询，表示为 n。通过利用共享的视觉动作嵌入空间，我们的解码器产生机器人系统可以使用的响应。：在这里，我们提出了一种视觉动作指令调整方法，可以弥合语言模型的基本预训练目标——下一个词预测）之间的差距，以及使模型能够处理各种机器人设置的目标。

2024-08-12 16:58:20 978

原创 LLaRA: Supercharging Robot Learning Data for Vision-Language Policy

相反，我们在对象检测的帮助下将每个额外的图像转换为语言描述。与inBC 相比，我们将此在文本中采用额外对象检测结果的方法命名为 Description-Instruct-BC（DinBC，我们在这些数据上训练的模型称为与前面相同的名称）。与 VIMA [43] 相比，我们最好的模型不仅取得了更好的性能，而且需要更少的输入，并且仅在 VIMA 中使用的 12% 数据上进行训练。也就是说，模型的输出是带有各种标识符的文本，标注了物体的位置旋转角度之类的信息（通过特定的标识符说明物体位置、旋转角度之类的信息）。

2024-08-12 16:56:34 1033

原创 Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuni

（这一点与VIMA不同，VIMA中是behavioral cloning，感觉behavioral cloning就是这里说的imitating learning）给定一个轨迹序列：given any sequence of robot trajectory ωT = (o0, a0, o1, . . . , aT −1, oT )，其中（o0, . . . , oT）表示observations序列，(a0, . . . , aT −1)表示动作序列。，并自回归解码每个令牌，如图1所示。

2024-08-12 16:54:40 698

空空如也

空空如也