敢敢のwings-CSDN博客

原创具身智能操作知识梳理与拓展

NPY: NumPy原生格式，存储单个数组或字典TFDS: TensorFlow Datasets格式，用于TensorFlow生态系统RLDS: Robotics Language-conditioned Dataset，机器人任务数据集HDF5: 分层数据格式，支持大型复杂结构化数据。

2025-04-23 13:54:52 6924 1

转载强化学习的几个主要方法（策略梯度、PPO、REINFORCE实现等）---下

策略梯度算法在理想情况下，在采样次数足够多的情况下效果是能很不错的，但是当采样不够时就会出现一些问题，例如GtG_tGt的取值是很不稳定的，下图可以形象说明：由于GtG_tGt的取值不稳定，所以(st,at)(s_t, a_t)(st,at)更新也不稳定。由于GGG的值有点太不稳定太玄学了，因此我们可以想办法去用一个神经网络去预测在sss状态下采取行动aaa时对应的GGG期望值，之后再训练中我们就直接用这个期望值去替代采样的值。为了完成这个目的，我们可以使用基于价值的方法深度Q网络，深度Q网络有两种

2025-01-22 15:23:34 5625

转载强化学习的几个主要方法（策略梯度、PPO、REINFORCE实现等）---上

策略梯度算法在理想情况下，在采样次数足够多的情况下效果是能很不错的，但是当采样不够时就会出现一些问题，例如GtG_tGt的取值是很不稳定的，下图可以形象说明：由于GtG_tGt的取值不稳定，所以(st,at)(s_t, a_t)(st,at)更新也不稳定。由于GGG的值有点太不稳定太玄学了，因此我们可以想办法去用一个神经网络去预测在sss状态下采取行动aaa时对应的GGG期望值，之后再训练中我们就直接用这个期望值去替代采样的值。为了完成这个目的，我们可以使用基于价值的方法深度Q网络，深度Q网络有两种

2025-01-22 15:21:31 5670

转载看完这篇文章，我终于搞懂了 CMake，真香！(高级篇补充)

不要硬编码路径用相对路径，让用户通过文件会安装到和。更灵活，无需管理员权限，跨平台也好用！如果有一些头文件没有实现（比如接口、纯抽象类），可以用INTERFACE接口库（INTERFACE）用于配置一些公共的链接和编译选项，小型项目可能用得少，大型项目常见。CMake 是个强大的工具，但要用得好，还是需要一些技巧和经验。包管理和安装配置：重点是让你的库好用、易装。

2025-01-10 18:25:58 8321

转载聊聊端到端自动驾驶通用感知架构的前世今生

这张图演示的是相关方法的演进。这其中大部分都是基于BEV的方法，上图就是BEV-based相关方法的相关演进, 用某种方式将图像视角特征转到BEV特征空间，也就是一个高度方向拍扁的自车3D坐标系空间下，再用一个检测的Head实现目标检测。BEV这张图的尺寸通常比较大，比如一般常见的论文里面会用128×128 size，但在实际中，我们甚至会用两倍大小的BEV特征图。从图像特征空间向BEV层空间转换过程，是一个非常密集的计算过程。

2024-10-23 10:33:10 5478

转载空间坐标（系）如何进行变换？

要描述某一物体在现实场景的位置，通常以三维空间坐标系下的坐标进行说明，当物体位置或自身进行变化时，可以用放射变换说明物体的变化情况。根据现实情况，坐标系和物体可以相互描述，即二维平面坐标（系）变换的情况包括一个二维平面坐标系描述一个物体（坐标）变换情况和一个物体（坐标）在两个二维平面坐标系间的变换情况。根据现实情况，坐标系和物体可以相互描述，即三维空间坐标（系）变换的情况包括一个三维空间坐标系描述一个物体（坐标）变换情况和一个物体（坐标）在两个三维空间坐标系间的变换情况。[3] 你不来我不老.

2024-09-04 10:45:26 2650

原创 Clion 使用

默认情况下，CLion编译使用的CMake是其内置的一个版本，而使用这个版本的CMake进行编译时会报出一些莫名其妙的错误，命令行中catkin_make明明可以正常编译，而这里就是会失败。回到一开始的"Threads & Variables"窗口，左上角有一些控制按钮，从左到右依次是：Rerun（Ctrl+F5），Stop（Ctrl+F2），Resume（F9），Pause（暂时用不上），Step Over（F8），Step Into（F9），Step Out（Shift+F8）。

2024-08-31 16:21:38 11525

转载 IMU preintegration on manifold 学习笔记（一）

Posted on 2023-02-18 Edited on 2024-07-11 In vslam Views:ω∧=[ω_1ω_2ω_3]∧=[0−ω_3ω_2ω_30−ω_1−ω_2ω_10]=WW∨=[0−ω_3ω_2ω_30−ω_1−ω_2ω_10]∨=[ω_1ω_2ω_3]=ω\mathbf{\omega}^{\wedge}=\begin{bmatrix}\omega\_1\\ \omega\_2\\ \omega\_3\end{bmatrix}^{\wedge}=\begin{bmatrix}

2024-07-12 12:10:41 3920

原创 CMakeList整理大全

之前我们也整理过。但是这里面整理的内容其实是不全的。所以我们需要进一步将CMake的使用整理好。以供后面的学习的工程师来检索查询。

2024-04-29 14:41:26 20062

原创 C++ CPU程序占用率高问题排查

我们在之前介绍了使用Valgrind、perf、AddressSanitzer等工具来完成内存泄漏的检测，当然内存泄漏以外还有cpu的占用率变高这类问题。作者在这里提供几个方法来对C++程序中CPU程序占用率高问题排查。

2023-12-29 13:14:36 9431

转载 Linux中.a、.so和.o文件以及-I，-L，LIBRARY_PATH，LD_LIBRARY_PATH等

(3) 修改/etc/ld.so.conf文件，把库所在的路径加到文件末尾(直接写在文件末尾，不要在路径前加include)，并执行ldconfig刷新（ldconfig 命令的用途,主要是在默认搜寻目录(/lib和/usr/lib)以及动态库配置文件/etc/ld.so.conf内所列的目录下,搜索出可共享的动态链接库(格式如前介绍,lib*.so*),进而创建出动态装入程序(ld.so)所需的连接和缓存文件.缓存文件默认为/etc/ld.so.cache,此文件保存已排好序的动态链接库名字列表.）。

2023-08-16 17:14:24 4155

原创 SLAM本质剖析番外-李群李代数的微分和导数

这几个月，博主已经从SLAM算法的使用向着算法的数学推导进行了记录和分享，之前也分享了一文，从现象中解释了李群和李代数表达的含义。但是这还不够，所以这次作者作为SLAM本质剖析的番外，来介绍李群李代数的微分和导数。

2023-01-16 16:10:19 11708 2

转载 undefined symbol问题的查找、定位与解决方法

而这块可以看到fpdf_parse_encrypt是依赖于下边的fx_crypt文件的，再看静态库，fpdf_parse_encrypt被编译成fpdfapi.a，而fx_crypt被编译进pdrm.a静态库，所以应该是fpdfapi.a要依赖于pdrm.a静态库的。ldd命令，可以查看对应的可执行文件或库文件依赖哪些库，但可执行文件或库文件要求与操作系统的编译器类型相同，即电脑是X86的GCC编译器，那么无法通过ldd命令查看ARM交叉编译器编译出来的可执行文件或库文件。

2022-12-14 14:53:39 11528 4

原创自动驾驶-激光雷达预处理/特征提取

激光雷达作为自动驾驶最常用的传感器，经常需要使用激光雷达来做建图、定位和感知等任务。而这时候使用降低点云规模的预处理方法，可以能够去除无关区域的点以及降低点云规模。并能够给后续的PCL点云分割带来有效的收益。

2022-08-24 21:12:44 5250 2

原创 C++之生成器(builder)模式

0. 简介生成器是一种创建型设计模式，当构建一个复杂对象时，将构建过程与表示分离。使得同样的过程创建不同的对象。生成器与其他创建型模式不同，生成器不要求产品拥有通用接口。这使得用相同的创建过程生成不同的产品成为可能。生成器方法通常支持方法链（例如 someBuilder->setValueA(1)->setValueB(2)->create() ），来组成复杂的对象。相比于工厂模式专门用于生产一系列相关对象而言，生成器重点关注如何分步生成复杂对象。1. 生成器UML介绍生

2022-03-07 10:38:52 9956 4

原创 C++命名规则&书写规范

常见命名法：匈牙利命名法：基本原则是：变量名＝属性＋类型＋对象描述\color{blue}{变量名＝属性＋类型＋对象描述}变量名＝属性＋类型＋对象描述，其中每一对象的名称都要求有明确含义，可以取对象名字全称或名字的一部分。命名要基于容易记忆容易理解的原则。保证名字的连贯性是非常重要的。Camel命名法：即骆驼式命名法，原因是采用该命名法的名称看起来就像骆驼的驼峰一样高低起伏。Camel命名法有两种形式：混合使用大小写字母和单词之间加下划线\color{blue}{混合使用大小写字母和单词之间加下划线}混

2021-05-12 10:42:19 6371 2

原创具身智能TL常用算法面经：基础认知与 VLA 框架(一)

具身智能与VLA框架：核心概念与面试要点摘要本文系统介绍了具身智能的核心概念和VLA（Vision-Language-Action）框架。具身智能强调智能体通过身体、传感器和执行器在环境中闭环交互的能力，与传统CV/NLP的最大区别在于其动作会改变环境状态。VLA框架包含三个关键模块：视觉编码（处理多模态输入）、语言编码（理解任务指令）和动作生成（输出可执行控制）。文章详细解析了VLA的工作原理，比较了不同模型的特点，并探讨了动作表示、泛化能力等核心问题。同时指出了具身智能面临的独特挑战，包括本体约束、

2026-05-06 17:41:14 724

原创 World Knowledge：让智能体在任务到来前先理解世界

当前自进化智能体仍依赖人工预设任务和奖励机制，缺乏真正的自主探索能力。本研究提出元学习驱动的智能体进化范式，让智能体在没有明确任务时主动构建结构化环境知识（World Knowledge）。通过URL爬取聚类、知识生成、任务执行和效果评估的完整流程，智能体能预先建立环境认知地图，显著提升后续任务效率。实验表明，这种自主探索生成的知识能有效减少任务执行步数，提高成功率，为实现真正的自进化智能体提供了新思路。

2026-05-06 17:40:50 462

原创 LDA-1B：让机器人基础模型真正学会利用异构具身数据

文章摘要： LDA-1B提出了一种突破性的机器人学习框架，通过整合异构数据（包括低质量轨迹、人类视频和仿真数据）来学习世界动态与动作的关系，而不仅依赖行为克隆。其核心是四任务联合训练模型（策略学习、前向/逆向动力学、视觉预测），配合标准化数据集EI-30K和分布式任务采样器，实现跨本体动作对齐。该框架将不同形态的机器人/人类动作映射到统一坐标系，利用掩码机制处理维度差异，显著提升了模型从复杂数据中提取通用物理规律的能力，为机器人基础模型的数据利用效率提供了新范式。（149字）

2026-05-06 17:40:24 498

原创 π0.7深度解析：为什么它不是“更大的机器人模型”，而是机器人基础模型的一次方法论转向

摘要 Physical Intelligence发布的π0.7机器人模型标志着通用机器人策略的重要突破。不同于简单增加任务数量或参数规模，该模型通过重构prompt设计，将任务目标、执行风格、行为质量等要素统一编码为多模态控制接口，实现了从"动作模仿"到"条件化行为生成"的范式转变。π0.7整合了前代模型在开放环境泛化（π0.5）、经验学习强化（π*0.6）和记忆建模（MEM）等方面的能力，重点解决组合式泛化难题。其创新在于将prompt扩展为包含任务指令、子目标图像

2026-05-06 17:39:21 932

原创具身智能TL常用算法面经：经典 VLA 模型与动作生成范式(二)

本文对当前主流视觉语言动作（VLA）模型进行了系统比较，旨在帮助读者理解不同模型的设计思路、适用场景及优缺点。文章重点分析了RT-2、OpenVLA、ACT、Diffusion Policy等8个关键模型，从动作表示、推理延迟、数据规模等维度展开对比。核心观点包括：RT-2通过动作token化实现视觉语言与控制的统一，但存在离散误差问题；OpenVLA的价值在于提供开源可复现的VLA基线；ACT采用CVAE和动作分块设计，适合小数据场景；Diffusion Policy擅长生成平滑轨迹但推理较慢。文章强调

2026-05-06 17:38:56 450

原创具身智能TL常用算法面经：数据训练、SFT 与 Sim-to-Real 闭环(三)

摘要本文探讨了具身智能领域的数据瓶颈问题及解决方案。针对机器人数据稀缺、采集成本高等问题，提出了多源数据组合策略：使用高质量遥操作数据作为基础，仿真数据补充长尾场景，开源数据提供通用先验，人类视频辅助语义理解。详细介绍了遥操作数据采集系统的设计要点，包括数据字段记录、时间同步机制和质量控制标准。针对数据抖动问题，提出了采集端限速滤波、后处理平滑和模型层约束等全链路解决方案。此外，还讨论了操作风格差异的处理方法，建议使用条件生成模型来保留多样化的有效策略。文章强调应建立数据闭环系统，通过失败模式分析定向补充

2026-05-06 17:38:30 438

原创具身智能TL常用算法面经：生成式策略基础与 RL (四)

摘要本文系统梳理了具身智能算法面试的核心要点，围绕动作生成与优化展开。首先解析了CVAE在ACT中的作用，强调其通过潜变量建模多峰动作分布的优势。然后深入对比了Diffusion Policy和Flow Matching的技术差异：前者通过联合分布建模动作轨迹，后者学习连续向量场实现高效推理。文章进一步探讨了RL算法（PPO/SAC/TD3）的选择策略，以及部署时的稳定性优化方法。最后总结了从模仿学习到生成模型，再到强化学习后训练的技术演进路线，为机器人控制算法提供了全面的面试准备框架。全文突出算法原理与

2026-05-06 17:38:10 414

原创 Wild Visual Navigation：让机器人在荒野中快速学会“哪里能走”

本文介绍了WVN（Wild Visual Navigation）系统在野外机器人导航中的创新方法。针对自然环境导航难题，WVN提出了一种基于自监督学习的实时可通行性估计方案。系统核心在于利用预训练视觉模型提取语义特征，结合机器人自身运动反馈进行在线学习。通过DINO-ViT和STEGO模型提取图像特征，再使用轻量级MLP进行实时回归预测。系统采用双进程并行架构，一个负责视觉特征提取和推理，另一个负责在线学习更新模型。此外，文章还详细阐述了多相机调度机制和特征提取技术，展示了WVN如何在有限计算资源下实现高效

2026-05-06 17:37:40 528

原创 PIE 视觉 Parkour 复现路线：从三个开源项目到单阶段隐式显式估计

摘要四足机器人parkour任务需要机器人提前感知复杂地形并执行动态动作。传统盲走策略依赖本体反馈，难以处理需预判的障碍；两阶段视觉策略存在蒸馏损失和链路复杂问题。PIE方法创新性地融合深度图与本体历史，构建双层隐式显式估计：显式预测高度图、基座速度和足端离地量，隐式预测下一步本体状态。本文基于LeggedGym-Ex、parkour和MoRE三个开源项目，梳理了从现有视觉parkour代码到PIE复现的完整路径。其中LeggedGym-Ex提供基础训练框架，parkour项目验证了两阶段视觉策略可行性，

2026-05-06 17:36:59 604

原创 NVMS-SLAM 深度科普：用法向量解决室内多会话 LiDAR SLAM 的双面问题

室内多会话SLAM的双面墙难题与NVMS-SLAM解决方案本文探讨了室内SLAM中薄墙结构带来的特殊挑战——传统点云匹配容易将墙体正反面误认为同一平面，导致建图失真。针对这一问题，NVMS-SLAM提出了一套系统性解决方案：通过法向量信息贯穿SLAM全流程，从前端地图表达、点云匹配到后端优化，严格区分墙体的双面几何特征。该方法采用法向量体素管理技术，在体素层级维护不同表面的统计信息，并改进ICP匹配过程，加入法向一致性约束。实验表明，这种基于法向量的处理方法能有效避免薄墙区域的错误融合，显著提升多会话地图

2026-05-06 17:36:33 558

原创 Marathongo：人形机器人马拉松导航系统的结构、原理与落地路径

北京亦庄举办的人形机器人半程马拉松赛事推动了机器人导航技术的突破性发展。Marathongo作为面向该赛事的全栈开源导航方案，其核心价值在于实现了21公里长距离自主导航能力。该方案采用分层架构设计，通过GNSS+IMU+LiDAR紧耦合融合定位解决室外复杂环境下的漂移问题，同时提供可裁剪的模块化组件以适应不同硬件平台。系统强调工程实现而非单纯算法创新，包含传感器校准、时间同步、点云预处理等关键细节，并已在2026年赛事中验证厘米级定位精度。这种从实验室走向真实场景的技术路径，标志着人形机器人导航正从&quo

2026-05-06 17:36:14 745

原创 Memoir 论文解读：让导航智能体学会“先想一段，再回忆一段”

Memoir论文提出了一种创新的具身导航方法，通过重新定义"想象"的用途来改进视觉语言导航任务。与以往将想象用于规划不同，Memoir将想象结果作为检索查询，从长期记忆中寻找类似场景下的观察和行为模式。该方法包含三个核心组件：语言条件化的世界模型进行状态推断和未来想象，混合视点级记忆存储环境观察和历史行为，以及经验增强的导航模型动态融合当前观测与检索结果。实验表明，这种"先预测、再提取"的方法在持续环境中显著提升了导航性能。该工作不仅改进了导航任务，更提出了预测可以用

2026-05-06 17:34:27 678

原创 LingBot-Map 深度解析：为什么单目 RGB 也开始具备稳定的流式 3D 重建能力

最近两年，3D 视觉领域最显眼的进展，大多来自离线多视图基础模型，例如 VGGT、DUSt3R、Depth Anything 3 这一类方案。它们的共同优点是，只要把一组图像整体送进去，就能在一个前向过程中恢复相机姿态、深度图和点云，结果通常非常漂亮。但这类方法有一个在机器人场景里很现实的问题：它们默认可以看到全部图像，也就是“先拿到完整输入，再做全局推理”。现实世界中的机器人并没有这个条件，它只能一边移动一边接收新画面，必须在不知道未来会发生什么的前提下持续定位和建图。这就把问题从“重建得准不准”变成了。

2026-05-06 17:32:54 734

原创 PCT Planner 经典3D导航学习：基于点云层析的多层三维环境全局导航

PCT Planner提出了一种创新的三维导航规划方法，通过层析切片技术将点云转化为多层2.5D结构表示，在保留关键几何信息的同时大幅降低了计算复杂度。该方法首先对点云进行多层水平切片，记录每个网格单元的地面和顶棚高度；然后评估地形可通行性并压缩搜索空间；最后通过改进的A*算法在多层结构中进行路径搜索和轨迹优化。实验表明，该框架将场景评估时间降低三个数量级，规划速度提升约3倍，能够有效处理楼梯、坡道、悬垂障碍等复杂三维场景。系统采用模块化设计，将点云处理与路径规划解耦，并通过GPU加速和数据类型优化实现高效

2026-05-06 17:32:15 853

原创高德具身智能技术深度解析：从地图导航到机器人物理世界模型

高德地图推出的ABot全栈具身技术体系在具身智能领域取得重大突破，其三层架构设计构建了完整技术闭环：底层ABot-World可交互世界模型提供数字孪生环境，中层ABot-N导航和ABot-M执行双基座模型分别处理路径规划与动作控制，顶层ABot-Claw机器人操作系统提供标准化接口。核心创新在于采用可微分物理引擎范式，通过140亿参数的Diffusion Transformer模型将物理规律嵌入生成过程，解决了传统视觉渲染模型违反物理常识的问题。该技术已在多项国际评测中超越谷歌、英伟达等竞争对手，为机器人构

2026-05-06 17:31:27 785

原创 StarVLA：视觉-语言-动作模型开发的统一框架

文章

2026-05-06 17:31:06 1180 1

原创 NVIDIA Thor学习之｜在Jetson AGX Thor上部署OpenClaw并基于Ollama的边缘AI协作实战（二）

边缘智能体协作系统构建指南本文介绍了基于Jetson AGX Thor平台和Ollama框架构建多智能体系统的完整流程。系统采用分层模型策略：30B参数模型处理复杂推理任务，8B模型负责文档生成，4B模型实现快速响应。详细步骤包括硬件环境准备、Ollama运行时安装、多规格Qwen3模型下载（30B/8B/4B），以及API服务配置。特别针对Thor平台优化了并行推理能力，支持4个并发请求和2个模型同时加载。该系统在64GB内存环境下实现了智能体协作的差异化任务分配，平衡了计算资源与响应效率，为边缘计算场

2026-04-24 13:20:22 1416

原创智元 D1 强化学习sim-to-real系列 | 从训练诊断到 Jetson Orin 实机部署（八）

文章摘要：本文重点探讨机器狗策略优化与嵌入式部署的关键问题。首先通过TensorBoard日志分析训练效果，从课程学习曲线、奖励项分布、终止原因等维度评估策略表现，发现机器狗已具备基本行走能力但存在步态不稳、打滑等问题。随后针对性地调整训练配置，如增加特定地形样本比例以提升通过能力。最后指出下阶段需解决策略迁移至Jetson Orin等嵌入式平台的实际部署问题，使系统真正具备移动应用能力。全文从实验分析到参数调整形成闭环，为从仿真训练到实机落地的完整流程提供了系统化解决方案。

2026-04-22 18:39:25 1175

原创智元 D1 强化学习sim-to-real系列 | 从控制接入到真机落地上篇（七）

在真正把策略接到机器人身上之前，有几类问题必须提前排查。因为它们一旦存在，最典型的现象就是机器人一上电就“打架”：各条腿之间像是在互相对抗，每条腿都像在执行一套不属于自己的控制意图。此时如果不先回头检查部署链路，而是直接怀疑 reward 或训练效果，往往会在错误方向上越走越远。下面这几项，就是实机部署前最值得优先确认的内容。

2026-04-20 20:18:58 1319

原创 NVIDIA Thor学习之｜部署NVIDIA Cosmos Reason 2B视觉语言模型完整指南（一）

摘要：Jetson AGX Thor部署NVIDIA Cosmos Reason 2B指南本文详细介绍了在NVIDIA Jetson AGX Thor边缘计算平台上部署轻量级视觉语言模型Cosmos Reason 2B的完整流程。该20亿参数模型采用多模态Transformer架构和FP8量化技术，结合链式思维推理能力，可在边缘设备实现高效视觉理解。指南包含系统环境准备（JetPack 7、NVMe SSD存储）、NGC账号注册、NGC CLI工具安装配置，以及FP8量化模型权重的下载步骤。相比Jetso

2026-04-15 19:13:18 1263

原创 ReconVLA: 重建式视觉-语言-动作模型——让机器人真正“看准“目标

本文介绍了一种新型视觉-语言-动作(VLA)模型ReconVLA，它通过创新的双分支架构解决了机器人视觉定位不准的关键问题。传统方法依赖外部检测器或坐标回归，存在复杂度高或精度不足的缺陷。ReconVLA提出隐式定位范式，在动作预测分支基础上引入视觉重建分支，强制模型通过重建目标物体图像来精确定位。该模型基于LLaVA-7B架构，使用离散化动作token和Stable Diffusion的VAE编码器，实现了多模态信息的高效融合。实验表明，这种设计显著提升了机器人在复杂场景下的操作准确性，为通用机器人系统的

2026-04-14 17:23:27 912

原创 Psi-0：通用人形机器人移动操作的开源基础模型深度解析

通过这种方式，模型建立起强大的视觉环境认知能力和任务语义理解能力，为后续的机器人控制打下坚实的基础。训练过程中，模型需要从RGB图像中识别物体、理解场景布局、推断物体的可操作性，并将这些信息编码为高层次的语义特征。值得注意的是，这个阶段使用的动作表示是。

2026-04-14 17:23:04 909

原创 JEPA-VLA：视频预测嵌入如何革新机器人视觉-语言-动作模型

基于图像的自监督学习方法如DINOv2能够生成精确的视觉表征，但这种精确性是**"无差别"的**——它会保留图像中的所有细节信息，包括大量与任务执行无关的背景纹理、光照变化等干扰因素。到现有的VLA模型中。这个方法的设计哲学是**“最小侵入、最大效果”**——通过轻量级的架构修改，充分利用V-JEPA 2的优势，同时保留原有VLA模型的预训练知识。比如，指令"把杯子放到桌子上"会让模型关注"杯子"和"桌子"这两个实体，但可能忽略路径上的障碍物、桌面的倾斜角度等隐含的任务相关因素。

2026-04-14 17:22:45 904

原创 ACoT-VLA: 让机器人在动作空间中思考

摘要北京航空航天大学和AgiBot团队提出ACoT-VLA模型，创新性地将推理过程直接置于动作空间中进行，解决了传统视觉-语言-动作(VLA)模型因依赖语义/视觉中间表示导致的信息损失问题。该模型包含显式动作推理器(EAR)和隐式动作推理器(IAR)两个核心组件：EAR通过流匹配生成粗粒度参考轨迹，IAR从多模态输入中提取潜在动作先验。这种动作链式思考(ACoT)范式首次实现了在动作空间内的直接推理，显著提升了机器人执行复杂任务的精确性和泛化能力。研究为机器人策略学习开辟了新方向，相关代码已开源。

2026-04-14 17:22:25 882

MIXVPR训练权重文件

ROS2相关资源.pdf

各学科重要国际学术会议目录.pdf

ROS 导航功能调优指南∗.pdf

机械臂项目kuka_iiwa.zip

占据栅格地图构建分享.zip

ROS_One.zip

小觅摄像头Opencv处理

kuka代码.zip

空空如也