- 博客(577)
- 资源 (50)
- 收藏
- 关注
原创 《VLA 系列》分析 Ψ₀ | Psi0 | 通用人形机器人 | 移动 + 操作
Ψ₀是面向“人形机器人” 移动+操作 的VLA模型,🚀支持全身控制的,实现 上肢操作+下肢移动。Ψ₀采用层级化三系统架构。Ψ₀的设计不仅关注“训练性能”,更关注**真实世界的部署落地**——机器人模型的核心价值是在真实世界中稳定执行任务,因此本章还提出了三大关键技术,解决**推理抖动、遥操作数据质量低、动作生成效率差**的实际问题,让模型从“实验室训练”走到“真实机器人执行”。
2026-04-06 12:12:36
593
原创 《VLA 系列》复现 Ψ₀ | Psi0 | 通用人形机器人 | 移动操作模型
本文介绍了使用开源项目Psi0训练Unitree G1人形机器人的完整流程。首先详细说明了代码下载、uv安装和环境搭建步骤,包括Python依赖管理和虚拟环境配置。然后介绍了9个真实世界操作任务的数据集,包含双臂协调、精细操作等技能,并提供了批量下载脚本。文章还展示了数据可视化方法,通过修改代码解决兼容性问题。最后详细描述了模型微调和离线推理过程,包括模拟数据和真实数据的处理方式,提供了完整的推理脚本和评估指标。整个流程涵盖了从环境配置到模型部署的全链条操作指南。
2026-04-05 17:38:06
536
原创 《VLA 系列》复现 π0.5 | 数据采集 | 模型微调 | DROID
本文介绍了如何基于DROID数据集对π0.5模型进行微调的过程。主要包括:1)参考DROID硬件平台搭建机器人系统,通过遥操作采集包含多视角视频、机器人状态和语言指令的操作数据;2)将采集的DROID格式数据转换为LeRobot标准格式;3)使用π0.5-DROID预训练权重进行模型微调,重点调整策略头部分。整个过程涉及数据采集、格式转换和模型训练三个关键环节,为机器人操作任务提供了端到端的解决方案。
2026-04-04 15:02:12
585
原创 《VLA 系列》π0.5 | 流匹配 | 分层推理 | VLA
π0.5:统一架构的VLA模型实现开放世界泛化 π0.5基于π0升级,采用统一Transformer架构,通过分层推理(全局任务→语义子任务→连续动作)和离散-连续动作融合表示,实现开放世界复杂任务的端到端控制。模型核心创新: 分层推理机制:单模型完成高层语义分解与低层动作生成,突破传统双模型分离设计的冗余问题; 混合动作表示:预训练阶段用离散token提升效率,推理阶段切换为连续流匹配实现精细控制; 多模态统一处理:支持图像、文本、机器人状态的异构输入,通过模态专属专家权重优化多源数据协同训练。
2026-02-13 09:30:00
1700
2
原创 《VLA 系列》π0 | 流匹配 | 开山之作 | VLA
π₀是一种新型视觉-语言-动作(VLA)框架,采用流匹配技术实现高灵巧度机器人控制。该模型创新性地结合了预训练VLM骨干(SigLIP+Gemma)和流匹配动作模块,支持50Hz的高频连续动作输出。通过动作块设计和跨体化适配,π₀能统一控制7种不同构型的机器人,完成68项任务。其核心优势在于:1)流匹配替代传统自回归离散化,实现连续动作建模;2)动作专家模块(MoE设计)专门处理机器人状态;3)多模态语义融合提升指令跟随能力。在RTX 4090上端到端推理仅需73ms,显著优于传统VLA和扩散模型方案。开源
2026-02-09 22:05:36
1799
原创 【VLA 系列】 πRL | 在线强化学习 | 流匹配 | VLA
论文解读,πRL是一款在线强化学习的VLA框架,适配π0、π0.5等基于流的VLA模型。
2026-02-04 20:51:58
981
原创 《VLA 系列》SimpleVLA-RL | 端到端 在线强化学习 | VLA
本文分析SimpleVLA-RL ,它是一款端到端 在线强化学习*的VLA框架
2026-02-03 20:27:03
994
原创 Qwen3-VL 模型推理 | transformers | vLLM | 多模态
Qwen3-VL模型使用指南 摘要: 本文详细介绍了Qwen3-VL多模态模型的使用方法,包括基于HuggingFace Transformers和vLLM两种推理框架的实现方案。文章包含以下核心内容: 模型基础信息: 开源地址:HuggingFace和GitHub 支持视觉语言任务(图像+文本→文本) Transformers框架使用: 模型加载与处理器配置 多模态输入处理(图像+对话模板) 生成参数调优 结果解码与清理 实践案例:图像描述和物体检测 vLLM框架使用: 高性能推理引擎初始化 批量处理优化
2026-01-28 20:05:26
2005
原创 Qwen3-VL 目标检测 | 生成训练标签 | LabelMe格式 | COCO格式
本文介绍了基于Qwen3-VL模型的物体检测方法,支持批量检测指定类别物体并输出LabelMe格式标注文件和可视化结果。该方法利用Qwen3-VL视觉语言模型实现端到端检测,无需额外训练检测器,通过自然语言提示词约束模型输出。系统提供标准化输出和可视化功能,支持将检测结果自动转换为LabelMe标注格式,并设计了强容错的结果处理机制。文章详细介绍了transformers和vLLM两种实现版本,包括模型初始化、图像处理、推理流程、结果清理和格式转换等关键环节。此外,还提供了将LabelMe格式转换为COCO
2026-01-26 19:34:06
2126
5
原创 【开放词汇】模型微调 最新论文汇总 | 开集检测、开集分割
开放词汇模型微调方法综述:本文系统梳理了多种开放词汇模型的高效微调技术,包括PromptAdaptOVD的低秩增强模块、YOLO-World的提示微调、CAT-Seg的文本提示优化、VocAlign的LoRA微调以及LLMDet的双阶段特征对齐。这些方法通过冻结主干网络、选择性微调关键层(如注意力投影矩阵)或插入轻量适配器,在保持零样本能力的同时提升特定任务性能。
2026-01-12 20:17:31
1157
原创 VLM强化微调 | 多模态强化学习训练 | EasyR1
本文介绍了使用EasyR1框架对Qwen3-VL模型进行强化微调的完整流程。EasyR1是LLaMA-Factory作者开发的强化学习框架,支持多种强化学习方法。文章详细说明了从代码获取、环境配置到具体训练的操作步骤,包括创建conda环境、安装依赖库、配置训练脚本等关键环节。重点展示了数学推理强化训练示例,涉及奖励函数定义、提示词格式设置和训练脚本编写。同时提供了自定义训练的建议,包括准备奖励函数、修改配置文件等注意事项。训练过程可通过wandb进行监控,观察奖励函数变化和模型输出。
2025-12-14 21:19:45
1319
原创 【机器人】复现 RoboBrain2.0 具身大脑模型 | 统一感知、推理和规划能力
RoboBrain2.0是一款先进的机器人具身大脑模型,具备多模态感知、推理和规划能力。该模型提供3B、7B和32B三种版本,支持视觉编码和语言处理。主要功能包括: 图文问答(支持思考模式) 目标检测与定位 轨迹预测与规划 空间位置指向 具身导航任务 安装过程包括创建conda环境、安装依赖库和PyTorch。模型支持中文交互,可输出详细推理过程,并提供可视化结果。代码和论文已开源,适用于机器人复杂任务处理。
2025-12-07 17:07:18
1766
原创 『大模型部署』NVIDIA Orin + bnb量化 + Qwen3-VL | 4bit、8bit量化
本文介绍了如何使用BitsAndBytes库对Qwen3-VL多模态模型进行量化部署。BitsAndBytes是一个轻量级PyTorch库,支持8/4位量化技术,能将模型显存占用降低90%以上。文章详细讲解了从环境搭建到模型量化、再到实际推理的全流程,包括: 在NVIDIA Orin上安装CUDA驱动和PyTorch环境 使用LLaMA-Factory进行LoRA微调 合并基础模型和LoRA适配器权重 实施8位和4位量化(包含NF4/FP4量化类型选择) 提供两个应用案例:图像描述生成和特定物体检测 量化后
2025-11-16 23:36:24
1613
原创 『大模型量化』Qwen3-VL + Lora监督微调 + 8bit量化 + 实践推理
本文详细介绍了Qwen3-VL-4B多模态模型的LoRA微调、8bit量化及推理实践。首先使用LLaMAFactory对Qwen3-VL-4B进行LoRA监督微调,通过8bit量化将模型从8.3G压缩到4.6G。文章提供了两个量化后模型的应用案例:1)单张图像详细描述生成;2)特定类别物体检测与可视化,展示了模型在保持性能的同时显著降低资源占用的效果。实践表明,8bit量化后的Qwen3-VL-4B模型仍能准确完成多模态任务,为轻量化部署提供了可行方案。
2025-11-14 18:03:52
2613
1
原创 【大模型量化】Qwen3-VL + Lora监督微调 + 4bit量化 | VLM模型
本文介绍了对Qwen3-VL-4B多模态模型进行LoRA监督微调及4bit量化的完整流程。首先使用LLaMAFactory工具进行LoRA微调,采用4bit QLoRA量化策略降低显存消耗,设置学习率3e-5、批大小2等参数完成3轮训练。随后合并基础模型与LoRA权重,并通过BitsAndBytes工具进行4bit量化,模型大小从8.3G压缩至2.7G。量化后的模型仍能准确完成物体检测任务,在办公场景测试中成功识别桌子、椅子等物体并输出边界框和属性描述。该方案使大模型能在消费级显卡上运行,为轻量化部署提供了
2025-11-11 20:21:40
2365
3
原创 Ollama 模型权重 | 复制 | 不同电脑之间迁移
本文详细介绍了如何在不同电脑间复制Ollama大模型权重文件的方法。主要内容包括:1)通过find命令定位Ollama模型存储路径(通常位于/usr/share/ollama/.ollama/models/);2)解析模型清单文件获取权重文件的哈希值;3)在blobs目录中匹配对应文件并验证大小;4)使用rsync命令批量拷贝权重文件到目标位置。文章以qwen2.5vl和llama4等模型为例,展示了从查找文件到完整拷贝的整个流程,并提供了详细的Linux命令操作步骤,确保模型权重文件能够正确迁移。
2025-10-26 12:18:39
1472
原创 【大模型微调】LLaMA Factory 微调 LLMs & VLMs
LLaMAFactory是一个大模型高效微调平台,提供一站式可视化操作界面,支持多种模型(如LLaMA、Qwen、Gemma等)和微调方法(预训练、指令监督微调等)。平台支持多种精度和先进算法,并集成实验监控工具。安装简单,可通过Conda环境快速部署。用户可自定义数据集进行微调,适用于多轮对话、图像理解等任务。平台还提供丰富的入门教程和文档,适合不同水平的开发者使用。
2025-10-19 21:24:51
2297
原创 【机器人】WMNav 将VLM融入世界模型 | 零样本目标导航 | IROS‘25
WMNav是一种创新的目标导航框架,通过将视觉语言模型(VLM)融入世界模型,实现了零样本目标导航能力。该框架设计了基于预测环境状态的记忆策略,利用在线好奇心价值图(CVM)动态量化存储目标出现的可能性。WMNav的核心创新包括:VLM作为世界模型的预测引擎、子任务分解机制缓解VLM幻觉、两阶段动作提议器平衡探索与定位精度。实验表明,该方法在未知环境中能有效定位指定目标,无需任务特定训练或预建地图。代码已开源在GitHub。
2025-10-04 16:30:09
1768
原创 【机器人】SG-Nav 分层思维链H-CoT | 在线分层3D场景图 | 目标导航
SG-Nav是一种基于大语言模型(LLM)的零样本目标导航框架,通过三个核心技术实现高效导航:在线分层3D场景图构建、分层思维链(H-CoT)提示机制和基于图的重感知机制。该框架在MP3D、HM3D和RoboTHOR三大基准测试中表现出色,首次实现零样本方法性能超越有监督方法,展现了其在复杂环境中的强大适应性和鲁棒性。SG-Nav通过结构化场景表征和可解释推理过程,有效解决了传统方法存在的场景上下文缺失、LLM推理能力未充分发挥和感知误差等问题。
2025-10-02 23:08:51
1395
1
原创 【机器人】CogNav 目标导航 | 认知过程建模 | LLM大模型
CogNav框架创新性地通过VLM和LLM协同解决具身AI中的目标物体导航难题。该框架构建包含场景图、地标图和占用图的异质认知地图,动态整合语义与空间信息。核心创新在于:1)用VLM实现多模态环境表征;2)通过LLM模拟人类五阶段认知过程(广泛搜索→目标确认);3)实现零样本、开放词汇的导航能力。实验表明,相比传统方法,CogNav在HM3D等数据集上成功率显著提升,且支持跨场景泛化。该工作为具身智能的认知建模提供了新思路。
2025-09-25 00:20:56
2088
2
原创 【机器人】VLN-R1 微调 | 增强训练 | 连续导航
VLN-R1提出了一种基于大型视觉语言模型(LVLM)的连续视觉导航方法。该方法通过输入智能体第一视角的连续视频帧,采用两阶段训练策略(有监督微调+强化学习微调)实现端到端的导航决策。创新性地使用RLVR(基于可验证奖励的强化学习)和GRPO(组相对策略优化)算法,通过客观标准评估动作序列,并让模型自主对比优化决策。实验在VLN-Ego数据集上验证了方法的有效性,2B和7B模型在导航准确性和效率指标上表现优异。该研究为智能体在连续环境中的自主导航提供了新思路,实现了从"模仿专家"到&qu
2025-08-03 22:38:32
2469
原创 【机器人】复现 StreamVLN 具身导航 | 流式VLN | 连续导航
StreamVLN是一个基于多轮对话的连续视频导航系统,通过整合语言指令、视觉观测和空间位姿信息生成导航动作序列(前进、左转、右转、停止)。本文详细介绍了StreamVLN的复现流程,包括: 环境配置:创建Conda环境,安装Habitat仿真环境及依赖库 数据准备:需下载Matterport3D场景数据、VLN-CE导航片段和预收集轨迹数据 模型权重:提供仿真环境和真实世界部署两种权重 评估推理:支持多GPU和单GPU两种评估模式,可输出导航成功率、SPL等指标 训练方法:使用分布式多节点训练 系统在真实
2025-07-24 19:52:09
5883
10
原创 【机器人】REGNav 具身导航 | 跨房间引导 | 图像目标导航 AAAI 2025
摘要:REGNav提出了一种两阶段跨房间导航框架,通过离线预训练房间专家(无监督学习房间风格特征)和在线融合导航策略,模仿人类“先识别区域再定位细节”的认知方式。该方法利用单目RGB输入,通过风格编码器提取房间布局特征,结合视觉细节优化路径规划,在Gibson和Matterport3D数据集上显著提升导航成功率(SR)和路径效率(SPL)。实验表明,其分层决策机制有效解决跨房间视觉关联难题,泛化性优于传统方法。(149字)
2025-07-15 19:19:47
1798
原创 【机器人】Aether 多任务世界模型 | 4D动态重建 | 视频预测 | 视觉规划
Aether是ICCV2025提出的创新世界模型,通过整合几何重建与生成建模,构建了具备类人空间推理能力的统一框架。其核心突破在于将传统独立的三大任务——4D动态重建(时空场景还原)、动作条件视频预测(未来视图生成)和目标条件视觉规划(状态路径推导)融合到单一扩散模型中。该框架采用多模态隐变量交互机制,通过动态掩码处理和两阶段相机参数优化实现精准4D重建,并基于DiT架构进行视频预测与路径规划。实验表明,Aether能有效模拟人类空间认知逻辑,在机器人导航等
2025-07-09 21:17:01
1913
原创 【机器人】复现 Aether 世界模型 | 几何感知统一 ICCV 2025
《Aether:几何感知的通用世界模型及其复现指南》摘要:ICCV 2025提出的Aether框架实现了三大核心功能:四维动态重建、动作条件视频预测和目标条件视觉规划。该模型仅用合成数据训练即展现强大的零样本泛化能力。本文详细介绍了复现流程:1)创建Python 3.10的Conda环境;2)安装包含torch 2.5.1、transformers 4.48.0等42个依赖库的环境;3)提供三种任务的本地推理命令4)展示Gradio交互界面的部署方法。
2025-07-08 00:37:25
1501
原创 【机器人】复现 DOV-SG 机器人导航 | 动态开放词汇 | 3D 场景图
摘要:DOV-SG提出了一种动态开放词汇3D场景图构建方法,结合大型语言模型(LLM)实现长期语言引导的移动操作。该系统通过动态更新3D场景图,支持交互式探索和任务分解。论文详细介绍了复现流程,包括创建Python 3.9环境、安装PyTorch 2.3.1+cu121、Segment-Anything-2、GroundingDINO等关键组件,以及7个预训练模型的下载配置。实验展示了从场景重建到任务执行的完整流程,如"将红辣椒移到盘子"的导航操作,验证了该方法在语言引导移动操作中的有效
2025-07-05 00:05:44
1591
2
原创 【机器人】复现 HOV-SG 机器人导航 | 分层 开放词汇 | 3D 场景图
HOV-SG 是通过语言指令实现机器人导航的,核心特点是分层结构、开放词汇、3D场景图。可以为大规模、多层次的环境构建精确的、开放词汇的 3D 场景图,并使机器人能够通过语言指令在其中有效地导航。
2025-06-30 21:03:33
2554
19
原创 【机器人】ForesightNav | 高效探索 动态场景 CVPR2025
ForesightNav是一种基于场景想象的探索策略,用于机器人在未知环境中高效导航。从 “反应式探索” 到 “预见式规划”,基于局部几何语义地图,推理出全局场景,填补“未探索区域”。
2025-06-18 00:20:21
2377
原创 【机器人】DualMap 具身导航 | 动态场景 开放词汇语义建图 导航系统
一种创新的双地图框架,实现动态场景下的开放词汇自然语言导航。动态更新闭环,未找到目标时自动更新抽象地图并重新规划。
2025-06-17 00:57:14
1916
原创 【机器人】具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation
本文汇总了的论文,供大家参考学习,涵盖2025、2024、2023等覆盖的会议和期刊:CVPR、IROS、ICRA、RSS、arXiv等等论文和方法会持续更新的~
2025-05-30 18:53:11
9207
7
原创 【机器人】复现 Embodied-Reasoner 具身推理 | 具身任务 深度推理模型 多模态场景 长远决策 多轮互动
文章摘要 Embodied-Reasoner是一个多模态具身模型,扩展了深度推理能力至具身交互任务,支持AI2THOR仿真环境中的复杂操作(如物体搜索、搬运)。其核心能力包括:深度推理(分析/空间推理/规划)、多模态处理(图像-文本序列)及环境交互(自主探索)。复现流程涵盖环境配置(Conda+AI2Thor)、模型部署(通义千问权重)、任务合成(JSON模板生成)及轨迹生成(单/多步骤任务),并通过脚本实现评估。相关资源及代码
2025-05-25 12:07:00
2551
6
原创 【机器人】复现 WMNav 具身导航 | 将VLM集成到世界模型中
WMNav 是由VLM视觉语言模型驱动的,基于世界模型的对象目标导航框架。本文分享WMNav复现和模型推理的过程~
2025-05-17 18:15:00
2772
6
原创 【机器人】复现 SG-Nav 具身导航 | 零样本对象导航的 在线3D场景图提示
SG-Nav是一种创新的零样本物体导航框架,利用三维场景图表示观察到的场景,并通过分层的思路链提示帮助大型语言模型(LLM)推理目标位置。本文详细介绍了SG-Nav的复现和模型推理过程,包括环境配置、依赖库安装、预训练模型权重下载以及数据集准备。具体步骤包括创建Conda环境、安装habitat模拟器、pytorch、pytorch3d、segment_anything、GroundingDINO、GLIP和Ollama,并配置LLM。
2025-05-14 20:16:23
2625
18
原创 【机器人】复现 UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025
本文介绍了如何复现和运行UniGoal,一个通用的零样本目标导航框架,能够处理对象类别导航、实例图像目标导航和文本目标导航。整个过程详细说明了环境搭建、依赖安装和模型推理的步骤
2025-05-12 22:16:15
3538
15
原创 【机器人】复现 ECoT 具身思维链推理
文章介绍了如何在VLA(视觉-语言-动作)模型的基础上训练一个视觉-语言-动作模型,该模型能够在选择机器人动作之前,根据指令和图像生成思考决策的推理步骤,从而提高性能、可解释性和泛化能力。文章提供了具体的实施步骤,包括创建Conda环境、安装依赖库、下载模型权重和运行推理。此外,文章还提供了一个可视化推理演示脚本,展示了如何通过输入指令和图像数据,生成任务目标、子任务拆分、子任务推理和控制指令,并将结果可视化保存。这个框架的目的是通过具身链式思维推理(ECoT)来增强机器人控制的智能性和可解释性。
2025-05-12 00:55:39
2010
1
原创 UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025
UniGoal的提出了一个通用的零样本目标导航框架,能够统一处理多种类型的导航任务(如对象类别导航、实例图像目标导航和文本目标导航),而无需针对特定任务进行训练或微调。
2025-04-23 23:25:35
2237
原创 NVIDIA Jetson 环境安装指导 PyTorch | Conda | cudnn | docker
本文适用于Jetson Nano、TX1/TX2、Xavier 和 Orin系列的设备,供大家参考。
2025-04-07 23:09:42
3958
6
原创 【机器人】复现 GraspNet 端到端抓取点估计 | PyTorch2.3 | CUDA12.1
GraspNet是的大规模基准的基线模型,值得学习和复现。本文分享使用较新版本的PyTorch和CUDA,来搭建开发环境。
2025-03-30 11:28:12
3913
6
原创 【机器人】复现 GrainGrasp 精细指导的灵巧手抓取
GrainGrasp为每个手指提供细粒度的接触指导,为灵巧手生成精细的抓取策略。通过单独调整每个手指的接触来实现更稳定的抓取,从而提供了更接近人类能力的抓取指导。
2025-03-24 19:56:03
2467
5
CC2530 (zigbee) 中文数据手册完全版
2018-10-05
Win32DiskImager-0.9.5-install 树莓派和电脑传输文件
2019-02-25
全国大学生电子设计竞赛 培训资料
2018-10-21
bazel-0.27.1-installer-linux-x86_64.sh
2019-07-10
CVPR 2022 Tutorial Denoising Diffusion-based Generative Model
2023-11-11
整理近年来《人工智能》的标准和评估规范
2020-11-19
宝马:深度学习在自动驾驶中的应用及部署过程.pdf
2020-04-05
decawave_trek1000_arm2.10_pc3.6.zip
2019-07-22
apollo_demo_2.0.bag数据包
2020-01-13
ZigBee各类传感器模块-例程及使用手册说明.zip
2019-07-19
apollo__demo_1.5.bag数据包
2020-01-13
“2019年中国自动驾驶行业发展研究报告-前瞻产业研究院-2019.8”.pdf
2020-04-05
apollo--demo_1.0数据包
2020-01-13
VScode+opencv3.4+mingw5.3+cmake-3.9.0.rar
2020-04-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅