EEPI-CSDN博客

原创【论文阅读】RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

设计了指标敏感的过程奖励函数（Metric-sensitive Process Reward），不仅关注最终预测点的准确性（结果奖励），还通过过程奖励（Accuracy Reward）对中间推理步骤的感知精度进行评估和激励。尽管现有的视觉语言模型（VLM）很强大，但在处理复杂的3D场景和根据指令动态推理交互位置方面仍存在不足。结论：实验证明，通过结合专用深度编码器（SFT）和指标敏感的过程奖励（RFT），RoboRefer 在空间指代和推理方面具有极强的泛化能力和精准度，是实现具身智能的关键一步。

2026-01-25 01:24:43 578

原创论文阅读汇总

AbsoluteZeroπ0.5Igniting VLMs toward the Embodied Space

2026-01-22 14:42:58 77

原创【论文阅读】AbsoluteZero: ReinforcedSelf-play Reasoningwith Zero Data

相比之下，在“自提议（self-proposed）”的代码推理任务上训练的 AZR-Base-7B 和 AZR-Coder-7B，其数学平均分分别提升了 10.9 分和 15.2 分。这表明，强大的代码能力在经过 AZR 训练后，能够显著放大模型整体推理能力的提升。为了处理多任务环境下的高方差，它为 2 种角色（提问者/解题者）和 3 种任务类型（归纳/演绎/溯因）的组合设计了 6 个独立的基准值 (Baselines)，通过归一化优势值（Advantage）来稳定训练。

2026-01-22 14:10:49 870

原创【论文阅读】π0.5: a Vision-Language-Action Model with Open-World Generalization

核心思路：通过异构任务联合训练（Co-training），将互联网海量常识（Web Data）、跨本体机器人知识（Cross-Embodiment）与目标机器人的移动操作数据结合。通过层次化推理（感知。问题背景：现有的机器人模型（VLA）在受控实验室表现良好，但在复杂的真实家庭环境中面临泛化性差、无法处理长程任务（如 15 分钟的家务）以及无法理解复杂指令的挑战。感知层（Bounding Box）：首先在画面中圈出相关物体。规划层（Subtask Labels）：预测当前的语义子任务（如“打开微波炉”）。

2026-01-18 22:13:09 709

原创【论文阅读】Igniting VLMs toward the Embodied Space

手脑一体”的紧耦合：通过 Uni-CoT（统一跨层思维链）和特定的 MoE 架构，将逻辑推理与物理执行强行统一在同一个数学框架内，覆盖从“语义到感知运动”的全任务谱系。（Differentiable）：以当机械臂没抓准时，梯度会直接回流，告诉模型：“你刚才对‘杯子’这个词的空间定位（Grounding）有偏差”。在这一阶段，团队采取了极其谨慎的策略：冻结（Freeze）整个视觉语言模型（VLM）的主体参数。这是 Uni-CoT 能够“落地”的关键。Uni-CoT 的核心在于它覆盖了。

2026-01-10 17:05:13 856

原创【论文阅读】MOVE: A Simple Motion-Based Data Collection Paradigm for Spatial Generalization in Robotic Man

数据采集低效（静态限制）：传统的数据采集方式是“静态”的，即一条轨迹对应一个固定的空间配置（物体和目标位置固定）。主要贡献：MOVE 是一种简单、有效且通用的数据采集范式，通过在演示中引入物体和相机的运动，解决了机器人模仿学习中严重的空间稀疏性问题。隐式增强：通过让物体在轨迹中“动起来”，单条轨迹就能覆盖密集的空间配置空间，从而在不增加轨迹数量的情况下，极大提高数据的空间信息密度。在 10 项任务中，MOVE 的平均成功率达到 39.1%，相比静态采集（22.2%）提升了 76.1%。

2026-01-09 18:27:21 931

原创【论文阅读】DSRL: Steering Your Diffusion Policy with Latent Space Reinforcement Learning

问题背景：虽然基于行为克隆（BC）的扩散策略（Diffusion Policy）在机器人领域表现出色，但当预训练模型性能不足时，通常需要昂贵的人工演示来改进。传统的强化学习（RL）虽然能自主改进，但在高维动作空间中样本效率极低，且容易破坏扩散模型学到的先验分布，甚至。架构：使用了基于 Soft Actor-Critic (SAC) 框架的结构，包含 Actor 网络（预测噪声位移）和 Critic 网络（评估状态-噪声对的价值）。（Latent Steering）：将预训练好的扩散策略视为一个“黑盒”。

2026-01-06 19:33:35 1135

原创【论文阅读】RoboReward: General-Purpose Vision-Language Reward Models for Robotics

其核心是通过一套负样本数据增强流水线（包括反事实重标记和时间裁剪），从现有的以成功案例为主的数据集中生成失败和“险些成功”的示例，从而训练出通用的 4B/8B 参数视觉语言奖励模型。反事实重标记（Counterfactual Relabeling）：保持视频内容不变，但通过 LLM 生成与视频动作不符或仅部分符合的错误指令，并分配低分（例如：视频是“捡起碗”，指令被改为“捡起叉子”）。模型规模：训练了 40 亿（4B）和 80 亿（8B）参数的通用视觉语言奖励模型。

2026-01-06 14:02:00 1030

原创【论文阅读】Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

研究表明，通过结合高性能的遥操作硬件和能够处理高频、精确反馈的模仿学习算法，低成本机器人也能完成复杂的精细操作任务。：通过分块，原本需要几千步才能完成的任务，在模型的视角下变成了几十个“块”的衔接。时间集成（Temporal Ensembling）：为了提高动作的平滑度，模型在每个时间步都会预测一个动作块，并对重叠部分的预测值进行加权平均。：当模型预测一个长达 100 步的动作序列时，这个序列内部可以自然地包含“先停顿 10 步，再快速移动 90 步”的信息。（样式变量），用于捕捉人类演示中的变异性。

2026-01-05 19:36:41 1044

原创【论文阅读】3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

通过使用简单的点云表示和高效的编码器，使模型能够利用 3D 空间的几何信息，从而显著提高学习效率和泛化能力，实现在极少量演示（如 10 次）下完成复杂任务。编码器（DP3 Encoder）：使用一个轻量级的三层 MLP，配合最大池化（Max-pooling）和 LayerNorm，将点云编码为仅 64 维的紧凑 3D 特征向量。在跨越 7 个领域的 72 个仿真任务中，DP3 在仅有 10 次演示的情况下，比传统的 2D 扩散策略实现了 24.2% 的相对提升。），将随机噪声转化为连贯的动作序列。

2026-01-02 12:09:16 937

原创【方案了解】Helix: A Vision-Language-Action Model for Generalist Humanoid Control

[TOC]【方案了解】Helix: A Vision-Language-Action Model for Generalist Humanoid Control。

2026-01-02 00:27:36 543

原创【论文阅读】VGGT: Visual Geometry Grounded Transformer

每张图像被切割成固定大小的补丁（Patches），并加上位置编码（Positional Encoding）和视角编码（View Encoding），以便让模型知道某个 Token 属于哪张图的哪个位置。骨干网络 (Transformer Backbone)：采用类似于 ViT（Vision Transformer）的架构。这意味着模型在这一阶段就已经在隐式地进行“特征匹配”和“三角测量”了。输入编码 (Tokenization)：模型接收。注：所有位姿预测均以第一张图为参考系。旋转误差：计算预测四元数。

2026-01-01 12:02:18 842

原创【论文阅读】GVL: Vision Language Models are In-Context Value Learners

GVL 并不是在“训练”一个模型，而是在“引导”一个已经具备强大世界知识的模型（如 Gemini-1.5-Pro）。它通过打乱帧序这一巧妙手段，迫使模型放弃简单的时序推断，转而深入理解画面中的语义进度，而示例则是为这种深层理解提供了必要的“上下文参考”。

2025-12-29 11:15:24 840

原创 [WIP] 机器人领域的一些Key insights

2025-12-27 15:46:09 282

原创【论文阅读】VLA-pilot：Towards Deploying VLA without Fine-Tuning

但是由于预训练数据和特定任务的分布不一致（比如预训练中是抓蓝色杯子，但是任务是抓红色杯子），导致抓取动作的概率很低。VLA提供动作分布和置信度，外部验证器利用多模态大模型（比如GPT-4V）对开放世界的理解能力，通过自然语言推理对任务和动作进行重新评估，使得正确动作的概率更高。策略引导是指的将模型输出的多种轨迹进行评估，从而选择最佳的轨迹。好处是：不需再SFT，通过初始的采样轨迹，剔除差的，保留好的，然后基于好的再进行扩散，如此迭代，最终选择打分最高的轨迹。其实预训练的模型是具备任务能力的，只是选不出来。

2025-12-09 21:46:01 1067

原创【论文阅读】π∗ 0.6: a VLA That Learns From Experience

人类纠正机器的操作，机器不仅学习到正确的操作，还能通过value head判断之前哪里做的不好，导致了人类干预，从而避免再次出现该问题。注意：训练被分成了2个阶段，第一阶段训练value network，下一阶段训练policy network。，机器没做好的地方，人类给出打分，但是并没有干预其action。打分通过reward，使得机器意识到哪些动作是不好的，从而进行纠正。，针对机器探索到的分布外场景，人类进行干预，得到新的数据集。pi*0.6只用了强化学习，没有使用模仿学习吗？

2025-11-28 18:24:58 1066

原创【论文阅读】X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

将NLP领域的Soft Prompt Learning思想借鉴到机器人中，虽然不是架构创新（比如Transformer），但是能够以高效的方式解决机器人领域最关注的。因为针对目前已经训练好的大模型，需要使其适配到不同的垂类场景中。如果采用普通微调的方式，会针对所有参数进行调整，cost很大，而且分布变了之后可能会造成。因此提出了软提示学习的方式，在部署垂类应用时，只需要在本地存储很少量的soft prompt即可。X-VLA 将这一思想迁移到具身智能体领域，把“任务类型”换成了“机器人身份”，同样奏效。

2025-11-17 00:06:10 426

原创【论文阅读】PhotoBot: Reference-Guided Interactive Photography via Natural Language

PhotoBot 通过“语言理解 + 参考图像推荐 + 语义对齐 + 相机控制”的闭环，实现了能听懂你想要什么、给你建议、然后帮你拍出来的智能机器人摄影师。

2025-11-11 19:09:17 457

原创【论文阅读】π0 : A Vision-Language-Action Flow Model for General Robot Control

从标准正态分布线性去噪。预训练的目标是构建一个基础模型（base model），目标是广泛的泛化性（broad capabilities and generalization）。cache的原理：cache的是经过了线性变换（k = Wk, v = Wv）后的keys and values，节约的也是线性变换的时间。高质量数据的作用是效率和鲁棒，低质量数据的作用是让模型能够从错误中恢复（recover from mistakes）。预训练模型采用PaliGemma，是一个3B的VLM模型。

2025-10-15 17:41:17 939

原创【调研】视觉-语言导航 VLN

视觉-语言导航（Vision-and-Language Navigation, VLN）是具身智能（Embodied AI）领域中的一个核心且极具挑战性的研究方向。其核心任务是：开发一个能够理解自然语言指令的智能体（Agent），并利用其视觉感知能力，在复杂的、未曾见过的三维环境中导航至指定目标位置 (Result 1-1, 1-4)。

2025-09-16 17:05:13 1066

原创自动驾驶感知范式迁移：从BEV/向量化到高斯建模

本质: 这个过程就像一个艺术家在用无数个可塑形的、可变色的“智能粘土球”（高斯体）来雕刻一个与现实一模一样的模型。核心思想: 不再试图填充一个完整的网格，而是使用一组可学习的、稀疏的“查询向量”（Object Queries）作为“探针”，主动去图像中寻找并“提炼”与特定物体相关的信息。本质: 这是一种更有针对性的提炼。最终得到的是一组包含了物体信息的向量，而不是一个完整的场景地图。核心思想: 不去抽象信息，而是尝试用一组带有丰富属性的、可微的、显式的3D基元（即3D高斯体）去直接模拟和重建整个三维世界。

2025-08-29 11:34:21 1000

原创自动驾驶导航信号使用方式调研

本文调研在给定导航信号后，如何在端到端架构下，利用导航信息引导轨迹生成。目前主流的方案可以分为2种。一种是将导航作为“前置引导”深度融入轨迹生成过程（导航前置型）；另一种则是将导航作为“后置评价”标准来筛选最优轨迹（导航后置型）。

2025-08-20 20:30:40 1146

原创【论文阅读】AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control

之前的方法是在某场景下，从动作库中选出一条动作流（select the appropriate motion for the character），然后设计跟随目标函数（carefully designed objective functions），让动画人物进行跟随。在计算机动画领域（注意：该论文并非典型的具身智能领域），如何让动画人物的动作更拟人（life-like）一直是很关键的问题。RL奖励函数是什么？

2025-07-23 11:21:17 1184

原创【论文精读】GR00T N1: An open foundation model for generalist humanoid robots

由于本体的配置差异很大，比如传感器配置，硬件形态（夹爪，灵巧手），运动学模型（双足/四足），而且数据缺乏统一的标准，导致不同本体的数据难以整合和复用。：大语言模型，多模态大模型领域均有基座模型。比如大语言模型的GPT-3/4，多模态大模型的CLIP。是具备多任务能力的大模型，通常可以few-shot甚至zero-shot到未见过的任务上。是在训练阶段中，预训练的产物。一般需要进行微调才能适配下游任务。比如Bert-base，需要微调后才能用于情感分析等任务。

2025-07-04 14:30:04 1279

原创机器人行业之我看

传统方案依赖精确的动力学模型和复杂的控制理论（如MPC），在特定环境中是成功的（如自动驾驶），但是现实世界过于复杂和不确定，导致该方法鲁棒性不足。小脑的训练数据目前相当匮乏，对于物理世界的理解仍不充分。举例：别人向我扔飞盘，大脑输出“接住它”的指令，小脑输出手脚的协同控制指令，用什么力度，在什么位置接住等。比如，特斯拉Optimus的数据量大约在百万小时级别，能够让Optimus在工厂工作。大脑：处理语言和视觉信息，理解环境和指令，给出高级决策。小脑：基于大脑的高级决策，生成具体的控制指令。

2025-06-27 11:25:12 1038

原创【论文精读】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

在具身智能领域，从专家示范中进行策略学习较难。

2025-06-23 16:25:38 1166

原创【论文精读】BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds

传统基于优化的方法非常消耗算力 a significant computational burden for online planning。相比之下，现在有四足机器人在这方面有很多研究，但是他们将足建模为点。对于双足机器人来说，足需要建模为多边形polygon。网页链接：https://why618188.github.io/beamdojo。双足机器人在非平坦路面的行走很有挑战性，因为要求行走到安全的区域，并且保持稳定。团队：上海AI lab，上海交通大学，浙江大学等。

2025-06-11 14:39:11 934

原创【论文精读】RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

已知：目前VLM在VQA，推理等方面有强大的能力，可以给出机器人的高阶指令high-level commands，需要各种controller去给出指令，无法VLM自己给出直接用于控制的低阶指令Cartesian end-effector commands。问题：想要机器人能够获得足够强大的能力，暴力的方法就是采集足够大量的数据 millions of robot interaction trials，但是从成本角度考虑并不现实。针对机器人动作数据，限制给出的词表范围，防止输出不可执行的指令。

2025-06-08 01:02:31 1202

原创【论文精读】Improving Behavious with RL fine-tuning for Autonomous driving

RL过程能够显著提升可靠性significantly improves the reliability of the agent behavious。目前LLM采用的范式“先大规模预训练，再强化学习微调”被借鉴到这篇文章中了。采用Waymomer框架。

2025-03-31 21:52:56 1379

原创【论文精读】Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

这个预训练跟deepseek r1一样，都是让模型先学一些简单的专家分布，作为强化学习的冷启动，否则直接用强化学习，探索到专家分布的难度太大。但是上述误差是只有达到一定阈值时才算，没有达到阈值时就没有，所以是稀疏的。由于上述奖励过于稀疏，因此需要一些辅助奖励。模仿学习存在的问题已经越来越被广泛认识到。目前强化学习也存在问题。

2025-03-04 16:19:27 1005

原创强化学习入门

去掉Value model（Critic model），无需额外的价值函数。

2025-02-20 19:51:24 571

原创 MoE演变过程

因为有些信息是通识的，所以建立Shared Expert共享专家，这些专家是每个token都要过的，然后其他专业领域的专家由router进行选择，然后再加权求和。SparseMoE选择topk个专家（没有激活全部专家，所以叫sparse），然后各专家的输出进行加权求和。这个模型是由Switch Transformer论文中提出来的，其预训练速度是密集模型的7倍。用router给出各专家的权重，然后让输入过每一个专家，然后做加权求和。

2025-02-17 20:36:57 497

原创大语言模型入门

找到常出现的编码对，比如（125 67），就把它合成为一个新编码符号（比如301），然后再看有没有新的编码对，比如（301 786），那就再把这个合成新的。一种用于大模型的策略优化算法，通过分组比较，动态调整学习策略，使训练更高效和稳定。因为输入的是对话，所以需要对对话进行处理，增加虚拟独白部分，分别在最前和最后，而且要指明是user还是assistant。给模型输入一段没见过的东西，它会沿着继续预测下去，本质上是在概率性的前提下进行最佳预测。如果给base输入一句话，它不会回答，只会续写。

2025-02-13 22:19:48 1701

原创【论文精读】Taming Transformers for High-Resolution Image Synthesis

CNN具有归纳偏置（https://zhuanlan.zhihu.com/p/537658409），主要是局部性和平移不变性，在这2个先验信息前提下，CNN学习速度更快，因此在小样本的图片处理任务中优于Transformer。这篇论文就是将CNN和Transformer结合起来，将CNN的归纳偏置的性能和Transformer的表达能力相结合，用于高清的图片生成。然后用Transformer建模连续多张图片的index，并推理下一张的index，然后进行解码即可。

2025-02-05 22:17:32 684

原创【论文精读】MotionLM：Waymo新作

该文章的一个主要创新点是把每一个时刻的位移认为是vocabulary运动序列的一个运动token（motion token）。采用teacher-force的方法，每个回归出来的点都是加在上一时刻的真值上，得到这个时刻的输出，模型收敛更快。简介：采用自回归的方式做轨迹生成，能够更好地建模交互，且避免模态坍缩，在数据集达到了SOTA。给定context，模型输出13x13的分类分布，然后采样得到x和y方向的action。该模型并不是直接输出轨迹，而是输出分类结果，从而滚动重建轨迹。kmeans聚类成6条。

2025-01-14 15:19:12 748

原创【论文精读】Sparse4D v2: Recurrent Temporal Fusion with Sparse Model

团队：地平线时间：代码：简介：PETR是query-based方法，但是为了实现特征融合，进行了全局注意力机制，导致高计算量。image通过backbone和FPN，得到多尺度特征，略。这一层是为了提取这一帧新出现的障碍物。根据SparseDrive在附录的信息，初始化900组特征和anchor，然后选出打分最高的300组highest confidence instances给到multi-frame layers。这一层拿到sigle frame layer输出的300组障碍物信息，然后再从mem

2024-07-25 11:07:21 1022 1

空空如也

空空如也