具身智能
文章平均质量分 85
ai_moe
寄言燕雀莫相啅,自有云霄万里高。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RAFT光流估计
本文介绍了光流概念与RAFT算法。光流描述了视频中像素点的运动轨迹,RAFT则是2020年ECCV最佳论文提出的最优光流算法。该算法通过特征提取、构建相关体积、多尺度池化和GRU迭代更新等步骤,精确计算两帧图像间的像素位移。输入为连续两帧图像,输出为包含每个像素运动向量的光流图。RAFT可应用于视频稳定、动作识别、自动驾驶和视频压缩等多个领域,通过分析像素运动模式实现多种实用功能。原创 2025-11-05 17:27:53 · 667 阅读 · 0 评论 -
神经辐射场(NeRF)
NeRF(神经辐射场)是一种革命性的3D场景重建技术,能够从多张2D照片中学习3D场景的连续表示。其核心是一个小型神经网络(约5MB),将3D空间压缩存储为位置和方向的函数,输出每个点的密度和颜色。通过位置编码增强细节感知,再结合体渲染将3D信息投影为2D图像。训练时,NeRF通过对比预测与真实像素颜色优化网络,最终实现从任意新视角生成逼真图像。相比传统体素方法(需500MB存储),NeRF压缩率超100倍,且支持连续坐标查询,完美还原镜面反射等视角相关效果。代码示例展示了基于PyTo原创 2025-11-05 17:18:41 · 629 阅读 · 0 评论 -
LightningCLI 详解
复制默认配置并修改。原创 2025-10-25 10:12:53 · 799 阅读 · 0 评论 -
MapAnything: 通用前馈式度量3D重建
MapAnything 是一个简单的端到端训练的 Transformer 模型,能够根据各种输入类型(图像、校准参数、姿态或深度)直接回归场景的分解度量3D几何。多图像SfM(运动恢复结构)多视图立体视觉单目度量深度估计配准深度补全等是 Meta AI 研究院发布的通用3D重建模型,能够从各种输入(图像、相机参数、深度、姿态等)直接重建场景的3D几何结构。# 准备数据集(WAI格式)# 训练模型。原创 2025-10-24 21:16:37 · 1223 阅读 · 0 评论 -
UniVLA训练思路
UniVLA的核心创新是使用**潜在动作模型(Latent Action Model)**从视频中提取任务相关的动作表示,而不是直接预测具体的机器人动作。**关键点:潜在动作被映射为特殊token {ACT_0, ACT_1, …这是UniVLA独特的部分,训练一个能从视频中提取"抽象动作"的模型。在特定任务上微调,添加机器人特定的action decoder。训练一个能理解视觉、语言并预测潜在动作的大模型。,这使得模型能高效地在不同机器人和任务间迁移!有什么具体环节需要我详细解释吗?原创 2025-10-23 22:28:09 · 455 阅读 · 0 评论 -
univla复现libero
好的!我给你一个完整的、一步步可执行的LIBERO复现指南。原创 2025-10-23 18:32:12 · 683 阅读 · 0 评论 -
LIBERO 完整文档集索引
您现在拥有6份完整文档,涵盖LIBERO的方方面面:总计: 188KB,6678行,涵盖LIBERO全部核心内容!文件: | 41KB | 1424行文件: | 12KB | 473行3个notebook的核心代码片段速查表文件: | 49KB | 1702行10个工具脚本的完整讲解:文件: | 11KB | 339行脚本工具的速查卡片文件: | 64KB | 2237行深度剖析 文件夹的核心代码Part 1: libero/libero/ - 环境系统Part 2: libero/lifelo原创 2025-10-23 10:53:29 · 664 阅读 · 0 评论 -
LIBERO 工具脚本完全讲解
阶段推荐脚本目的初始化设置项目环境探索了解对象能力设计创建新任务数据收集收集训练数据数据处理生成训练集验证质量检查。原创 2025-10-23 10:36:50 · 652 阅读 · 0 评论 -
LIBERO Notebooks 快速参考指南
LIBERO Notebooks 使用指南摘要 本指南涵盖四个核心Notebook的使用方法: quick_walkthrough.ipynb - 基础入门 展示LIBERO路径管理、基准测试获取和任务加载 提供环境初始化和基本操作示例 procedural_creation_walkthrough.ipynb - 任务创建 分三步创建新任务:查看资源、定义场景、生成任务 包含50+对象和10种谓词的使用方法 演示场景模板注册和BDDL文件生成 custom_object_example.ipynb - 自原创 2025-10-23 10:27:22 · 655 阅读 · 0 评论 -
SpatialVLA
SpatialVLA本质是给机器人加了“空间思维”:靠3D编码看懂环境,靠自适应动作格子适配不同机器人,再通过“预训练+微调”兼顾通用和灵活。现在它能高效完成捡东西、分类、精细操作(比如插充电器),未来还能优化处理更复杂的任务(比如长时间连续操作),让机器人更像“能理解空间的帮手”。原创 2025-09-27 22:40:23 · 663 阅读 · 0 评论 -
大白话讲UniVLA
更灵活:能跨机器人、跨场景用,不用为每个新机器人/场景从头训;更高效:不用大量标注数据,能利用网上的视频,训练成本还低;更实用:在真实环境里表现稳定,能处理复杂任务和突发干扰。未来还想优化的方向:比如让“隐藏动作”能自动适应不同任务难度,或者支持双机械臂、更灵活的机器人操作。“隐藏动作单元”可以理解成机器人用来“思考动作”的“通用小模块”——它不是具体的“抬手”“弯腰”这类实际动作,而是把各种复杂动作拆解、提炼出的“核心动作代码”,专门解决机器人“学动作难、换场景难”的问题。原创 2025-09-27 21:28:20 · 823 阅读 · 0 评论
分享