自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 让机械臂看懂世界:深度图拟合法向量与开门任务实战

机械臂操纵的过程常常需要让末端和某个平面垂直,本文将从深度图获取法向量讲起,并延伸到如何在相机坐标系、世界坐标系、末端坐标系之间转换,最后实现末端 Z 轴朝向目标方向的控制。

2025-08-10 11:37:42 1358

原创 ZED 2/2i 相机安装与调试完整指南 | Ubuntu 20.04 + CUDA 11.8

在本指南中,我将详细记录如何在 Ubuntu 20.04 系统中成功安装并配置 Stereolabs ZED 2 / ZED 2i 相机环境,环境包括 CUDA 11.8 和 ZED SDK,以及遇到的常见问题与解决方案。

2025-08-01 21:00:23 1784 1

原创 Ubuntu 系统下使用 lsusb 命令识别 USB 设备及端口类型详解

在使用 Ubuntu 系统进行深度学习、计算机视觉或机器人开发时,识别 USB 设备连接情况尤为关键。尤其在使用 ZED 双目深度相机、外接摄像头、鼠标键盘等外设时,我们常需要确认这些设备是否正确连接、运行在哪个 USB 版本端口上,是否处于高速传输状态。本文以实际使用 lsusb 命令的输出为例,带你一步步解读每一个字段,明确设备对应的总线(Bus)、端口类型(USB 2.0 / 3.0 / 更高),并指出几个容易忽视的判断细节。

2025-08-01 19:22:31 1984

原创 Ubuntu 下配置 NVIDIA 驱动与 CUDA 环境(适配 RTX 4060Ti)

本文记录了在 Ubuntu 20.04 系统中,从零开始为 NVIDIA GeForce RTX 4060Ti 配置 GPU 驱动与 CUDA Toolkit 的完整过程,适合有一定终端基础的开发者参考。

2025-07-31 22:29:35 2088 7

原创 论文笔记 | EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence

在构建具身智能系统时,高质量、物理真实、可交互的3D资产是基础资源。然而,传统3D资产依赖人工建模,不仅成本高、效率低,还缺乏真实性和扩展性。为了解决这些问题,EmbodiedGen 提出了一整套生成式3D世界引擎框架,助力从图像、文本到交互式3D场景的自动构建,为具身智能的研究和应用打开了新的通路。

2025-07-25 17:32:26 1228

原创 论文笔记 | DuploTrack: A Realtime System for Authoring and Guiding Duplo Block Assembly

来自华盛顿大学和微软研究院的研究团队提出了 DuploTrack —— 一个基于Kinect深度摄像头的实时系统,用于记录、重建并引导Duplo积木的组装过程。该系统不仅实现了模型构建过程的自动记录(创作模式),还能在重建模型时提供与实物对齐的虚拟指导(引导模式),论文发表于 UIST 2012。

2025-07-24 16:50:26 690

原创 论文笔记 | Robotic Assembly of Interlocking Blocks for Construction Based on Large Language Models

这篇水文介绍了一种基于大型语言模型(LLMs) 的建筑用互锁块机器人装配框架,旨在解决建筑机器人因缺乏训练数据、计算资源及应对新任务能力而未被广泛接受的问题。该框架通过预定义提示词让 LLM 解读工人指令,生成动作序列和机器人功能,无需大量预先训练,能降低训练成本并提升机器人适应性。经互锁块装配任务验证,机器人可准确执行简单指令,但处理复杂指令仍需改进,展现了 LLM 基机器人在建筑装配与人类协作中的潜力。

2025-07-23 12:41:23 1001

原创 论文笔记 | Empowering Large Language Models on Robotic Manipulation with Affordance Prompting

文章提出LLM+A框架,旨在通过无需训练的范式让大型语言模型(LLMs)同时担任机器人操作任务中的高级子任务规划器和低级运动控制器。为解决LLMs缺乏物理世界 grounding 的问题,框架引入 affordance prompting 技术,促使LLMs预测计划后果并生成目标条件下的物体各部分交互优先级(affordance values)。实验表明,该方法在推、拾取放置等异质机器人任务中显著优于基线方法(如Naive LLM、ReAct等),平均成功率达59%(推任务)和85%(拾取放置任务),验证了

2025-07-22 22:49:24 1116

原创 论文笔记 | Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes

本文提出 RGB-Stacking 基准测试,研究如何仅凭 RGB 摄像头视觉和本体感知,实现机器人对 复杂几何物体的高效堆叠。通过结合仿真专家训练、交互式模仿学习与现实世界离线强化学习,提出的系统成功实现了 从仿真到现实世界的零样本迁移,展现出优秀的泛化能力与鲁棒性。

2025-07-22 21:25:34 1073

原创 Orbbec-Gemini-335 深度相机 Python SDK 编译与配置全记录(Windows 环境)

本篇博客将围绕 Windows 系统下 Orbbec SDK 的 Python 配置与编译过程进行详细说明,主要使用的是官方提供的 pyorbbecsdk Python wrapper 项目以及 Orbbec SDK V2 Python Wrapper 配置指南,并记录了安装与配置过程中遇到的若干问题及解决办法。

2025-07-22 15:30:13 1509

原创 VLM-R1 + GRPO 算法完整复现全过程日志

博主在尝试将 VLM-R1 项目中的 GRPO(Guided Reinforcement Prompt Optimization)算法应用于自己的任务时,我亲身经历了一场旷日持久的环境配置噩梦。整个过程累计耗时接近 10 个小时,其中踩坑无数,特别是在 FlashAttention、GLIBC 版本不匹配、Deepspeed 执行异常、Qwen2.5-VL 兼容问题等方面极其繁琐。本篇博客将对整个复现过程中的关键步骤和典型问题做一个系统性总结,方便大家少走弯路。

2025-07-11 16:48:12 1293 4

原创 「GRPO训练参数详解:理解Batch构成与生成数量的关系」

本文深入梳理了 GRPO 训练中的关键参数:nproc_per_node、per_device_train_batch_size、gradient_accumulation_steps 与 num_generations。这些参数共同决定了全局 batch size,并需满足特定的整除约束,否则训练会中断。本文将逐一解析它们的含义、相互关系及合法配置方式,帮助更高效地调试多卡多进程训练中的常见问题。

2025-07-11 16:26:43 1794

原创 RuntimeError: GET was unable to find an engine to execute this computation

在复现 VLM-R1 多模态模型并尝试迁移 GRPO 算法时,我遇到了一个典型的 PyTorch 报错:“GET was unable to find an engine to execute this computation”。本文深入分析了其成因,并分享了 cuDNN 环境配置的实用经验。

2025-07-11 13:44:55 1806 1

原创 FileNotFoundError: ‘/usr/bin/gcc-13‘

解决 Triton 编译时报错 FileNotFoundError: '/usr/bin/gcc-13' 

2025-07-11 12:12:10 664

原创 ImportError: /lib/x86_64-linux-gnu/libc.so.6: version GLIBC_2.32‘ not found

在复现 VLM-R1 项目并尝试将其中的 GRPO 算法应用到自己的任务时,按照官方文档配置好环境后,运行过程中遇到了一个非常离谱的错误:ImportError: /lib/x86_64-linux-gnu/libc.so.6: version GLIBC_2.32' not found这个问题极为冷门,卡了我整整五个小时,GPT 和网上的大多数解决方案都无效,最终才通过查阅大量 GitHub issues,定位到是 flash-attn 库与当前系统 GLIBC 版本不兼容导致的,才成功解决。

2025-07-11 10:57:30 3315

原创 FlashAttention 快速安装指南(避免长时间编译)

FlashAttention 编译太慢?本篇提供无需编译的预编译 wheel 快速安装方案,适配多版本 Python、PyTorch 和 CUDA,极大节省部署时间!

2025-07-10 23:02:34 7598 7

原创 SpaceLLaVA | 模型推理部署实战指南

​本文记录了在本地服务器上成功部署 SpaceLLaVA 多模态推理系统的全过程,重点解决了空间不足、NumPy 兼容性、模型加载失败(clip.has_text_encoder)等常见疑难问题,最终成功实现 llama.cpp + CUDA 后端的轻量化推理。​

2025-07-05 14:03:08 1157

原创 在服务器中下载 HuggingFace 模型:终极指南

本文将详细介绍如何使用 huggingface_hub 工具在服务器中高效、安全地下载 Hugging Face 模型,包括命令行工具的安装、登录认证、下载命令的使用方式,以及常见问题说明和优化建议。

2025-07-02 17:12:09 1646

原创 Genesis | 调试日志 | RigidLink

最近在做 Genesis 环境下的仿真项目,调试过程顺手记录一下,以便后续参考。本篇主要是针对刚体链接(RigidLink)的简单调试:命名获取,姿态获取。

2025-01-24 12:35:11 405

原创 实验记录 | 将 NTU120-CSub 数据集规模减半

由于 NTU120 数据集规模较大,实验耗时较长,因此我将数据规模缩减至原来的一半,同时保持样本的分布不变。我采用了简单的数组切割方法,确保了各类别样本和划分前一样的均匀分布。

2024-11-02 16:13:49 795

原创 Notion + Python + scholarly = 超强文献管理助手

我结合了Notion Integration 和 scholarly 两种工具,实现 Python 自动化脚本获取文章在谷歌学术的引用量等信息,高效自动更新 Notion-based 文献数据库。文章提供的 Notion +Python 实现自动化工作流的简单示例,可以轻松适配到 Notion 中需要批量数据更新的任何场景。

2024-10-28 09:15:27 1334

原创 Python获取谷歌学术的文献引用量等信息 | scholarly & SerpAPI

文献管理工具往往无法实时更新文章的引用量信息。我通过 scholarly 和 Google Scholar API 两种方法,实现Python自动化脚本获取文章在谷歌学术上的引用量等信息,从而高效地更新自己的文献数据库。

2024-10-27 00:40:57 2766 1

原创 HiRT | 异步控制策略,告别VLA时延问题

HiRT 通过异步处理的策略,将 VLM 作为低频慢思考过程,将轻量的动作策略模型作为高频快响应过程 ,以此解决 VLA 驱动带来的控制时延问题。这是本菜看的第一篇具身智能相关的论文,理解总结不当处欢迎批评指正!

2024-10-11 18:13:10 1354

原创 神经网络训练不起来怎么办(零)| General Guidance

模型性能不理想时,如何判断 Model Bias, Optimization, Overfitting 等问题,并以此着手优化模型。在这个分析过程中,我们可以对Function Set,模型弹性有直观的理解。

2024-09-07 17:05:38 986

原创 实验记录 | 点云处理 | K-NN算法3种实现的性能比较

本菜在复现点云文章过程,遇到了三种 KNN 的实现方式:knn、knn_point、knn_cuda,故在此一并对比总结,最后对三种实现方案进行了性能比较。

2024-09-07 15:46:42 2148 1

原创 神经网络训练不起来怎么办(五)| Batch Normalization

当 input feature 在不同 dimension 上差距很大的时候,会产生一个非常崎岖的误差平面。这种崎岖多变的误差平面容易导致训练陷入困境。Batch Normalization 则是通过直接改变 input feature 的分布,得到一张均匀、光滑的 error surface,使得训练变得容易。

2024-09-02 22:03:43 1011

原创 实验记录 | PointMLP | Grouping layer + Geometric Affine

图像卷积的经典思想:将周围的像素信息加权到中心像素点上,以实现降采样和特征的聚合。点云亦是如此:先通过采样选取中心点,然后找到中心点周围的邻域点,最后将邻域点的信息聚合到中心点上。这样便实现了 “降采样,聚合特征” 的效果。上代码!

2024-09-02 21:18:45 1582

原创 CS231n | 02-Image Classification with Linear Classifiers

因为本菜之前学过深度学习和计算机视觉的课程,虽然这节课大部分还是老生常谈的东西,但是细品又有新东西:KNN算法思想永垂不朽,线性分类矩阵又为何是图像收集器?本文带您循序渐进,逐步揭晓。如有理解不妥之处,欢迎批评指正~

2024-08-31 16:33:43 950

原创 Bug | CUDA | cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

如果我指定了 “CUDA:5” 进行调试,程序就会出现如下的报错;但如果我用 “CUDA:0” 运行程序,就能够正常运行,不发生程序报错。本质是 CUDA_VISIBLE_DEVICES 无效设置导致的。

2024-08-26 18:15:17 458

原创 CS231n | 01-Introduction

因为本菜之前学过深度学习和计算机视觉的课程,所以感觉这节课大部分还是老生常谈的东西。在这里记录本节课的关键内容,最后谈谈本节课带给我的一些思考。如有理解不妥之处,欢迎批评指正~

2024-08-26 10:56:58 501

原创 conda | 00-批量显示各环境的torch版本

做科研的时候我们都需要配置各种各样的虚拟环境,如果你的服务器已经有很多虚拟环境了,我想告诉你:不用配置!不用配置!不用配置!秘诀就是在所有环境中找到一个最匹配的环境,直接复制来用。即便你已经对conda的环境配置驾轻就熟,这种方法依然能够节省你大量的时间。

2024-08-26 10:36:16 627

原创 CS231n | 00-计算机视觉的进化史

在这个由0和1编织的数字世界里,计算机视觉的发展史就是一部关于如何让机器学会‘看’的史诗。我结合CS231n课程内容以及互联网资源大致梳理了其发展脉络。从1959年猫的视觉神经实验,到深度学习在21世纪的爆发,计算机视觉的旅程充满了智慧的闪光和意外的曲折。

2024-08-22 00:08:28 1574

原创 Bug | 避免因条件判断顺序导致的容器访问错误:if(x <= max_heap.top() || max_heap.empty())

if (表达式1 || 表达式2 || 表达式3......) 由于逻辑运算符的短路特性,各个条件表达式的顺序并不是严格平行的,应该严谨地考虑实际的逻辑顺序。

2024-08-11 21:20:19 203

原创 洛谷 | P1168 中位数 | 对顶堆:小根堆+大根堆

利用对顶堆(最大堆与最小堆),保持两堆大小平衡,实现动态数据流中高效的中位数计算。

2024-08-11 15:58:44 698 1

原创 Bug | priority_queue.size()无符号整型进行减法运算引发的惨案

使用优先队列(priority_queue)来实现大根堆和小根堆。在维护两个堆平衡的过程中,需要使用 priority_queue.size() 来判断两个堆的大小。因为 .size() 返回的是无符号类型,直接进行减法运算会导致错误。

2024-08-11 14:58:30 491

原创 洛谷 | P2085 最小函数值

通过优先队列(`priority_queue`)找到并输出一组二次函数中的最小函数值。每次从堆中取出当前的最小值,输出后将对应函数的`x`值递增,计算新的函数值,并将更新后的函数重新压入堆中。这个过程重复`res_num`次,确保每次输出的都是当前可能的最小函数值。简单来说,若F(1)取到最小函数值,那么F(2)大概率也会很小,也必须压入堆中。

2024-08-10 20:43:36 411

原创 Bug | pointnet2_ops_lib,furthest_point_sample 最远点采样结果不一致

pointnet2_ops_lib 的furthest_point_sample 最远点采样函数,最后得到的采样结果总是和标准的 FPS 函数不一致。发现是核心代码的 mag 变量导致。

2024-06-08 00:43:05 488

原创 实验记录 | pointnet2_ops_lib 最远点采样的差异分析

关于最远点采样 FPS 的实现,本文总结了广为流传的farthest_point_sample 函数和 pointnet2_ops_lib 工具包中 furthest_point_sample 函数实现上的差异,并且给出了造成这种差异的原因分析和解决方案。

2024-06-08 00:29:24 1202 1

原创 Bug | 运行单元格需要安装ipykernel包或需要进行更新

使用新配的虚拟环境运行 jupyter notebook 单元格,运行单元格出现错误“运行单元格需要安装ipykernel包或需要进行更新”的报错信息,尝试了常规的解决办法都行不通,卸载重装后解决。

2024-05-28 23:35:14 5253

原创 PointConT | 3D点云论文随笔

今天浅读了下 PointConT 这篇文章,感觉挺不错的,简单做了点论文随笔,分享出来欢迎大家一起品尝我炒的冷饭。若是读完能看懂 Fig2,Fig3,Fig4 就说明吃饱了!

2024-05-28 01:17:16 1253

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除