赤壁淘沙-CSDN博客

原创开源底盘+机械臂机器人：Lekiwi驱动链路分析

Lekiwi机器人系统采用底盘+机械臂的硬件架构，包含6自由度机械臂和3轮全向移动底盘。软件采用三层架构：应用层（设备操作）、总线层（统一接口）、设备层（具体实现），但当前设计未完全隔离底层设备。系统初始化时配置电机参数和相机，连接过程包括串口握手、状态检查及参数设置。校准功能支持使用现有校准文件或重新校准，通过调整机械臂到中间位置并记录运动范围来实现。整体设计注重模块化，但软件架构有待优化以实现更好的设备抽象。

2025-10-28 19:34:00 1182

原创机器人全身控制浅谈：理解 WBC 的原理

WBC（全身控制）是一种通过优化方法协调机器人各关节运动的技术，核心思想是将多个任务（如平衡、动作执行）和物理约束转化为二次规划问题，在毫秒级控制周期内求解最优关节力矩。其数学模型基于机器人动力学方程，考虑惯性力、接触反力等物理因素，通过雅可比矩阵连接关节空间与任务空间。示例代码展示了如何使用CVXPY库求解一个简化版机械臂的WBC问题，实现末端执行器加速度跟踪目标。

2025-09-29 17:20:20 1627

原创机器人控制利器：MPC入门与实践解析

摘要： MPC（模型预测控制）是一种基于系统模型预测未来状态并优化控制输入的控制方法，适用于机器人、无人驾驶等领域。其核心流程包括：建立系统状态模型（如$x_{k+1}=Ax_k+Bu_k$），预测未来N步状态，构建目标函数$J$（权衡状态误差与控制成本），添加约束条件后求解最优控制序列。MPC采用滚动时域机制，每次仅执行第一步控制量并重新预测，形成闭环反馈。示例中，MPC控制一维小车从0加速到目标位置10米并减速至停止，通过动态优化实现平滑控制。

2025-09-28 18:31:42 930

原创 LeRobot SmolVLA：从训练到推理链路剖析

本文分析了SmolVLA策略的实现框架，重点探讨了其训练和推理机制。该策略通过SmolVLAPolicy、VLAFlowMatching和SmolVLMWithExpertModel三个核心类实现，采用flow matching机制进行训练。

2025-08-27 17:54:07 1503 2

原创轻量SmolVLA：半层VLM、视觉压缩与异步推理赋能具身智能

SmolVLA是一种轻量级视觉-语言-行动策略，通过精简模型结构实现高效机器人控制。其核心设计包括：1）前端采用小型VLM（视觉SigLIP+语言SmolLM2）进行感知理解，仅使用中间层特征；2）视觉token压缩技术，将每帧token从1024降至64；3）动作专家采用交叉注意力与因果自注意力交替的三明治结构。这些设计使得模型参数量仅0.45B，比同类模型小10倍，同时保持性能。训练采用Flow Matching方法预测动作序列，推理时支持异步执行以降低延迟。该方案在低算力环境下展现出高效的多任务控制能

2025-08-23 16:52:19 2129

原创浅析Pi0 ：VLM 与 Flow Matching 的结合之道

Pi0是一种新型通用机器人控制器，通过结合视觉-语言模型（VLM）和Flow Matching技术实现跨平台控制。其核心是将PaliGemma VLM的语义理解能力与Flow Matching的动作生成能力相结合。训练时，模型学习从噪声动作到真实动作的转换路径，采用直线路径插值方法。推理时只需10步即可生成高质量动作，适合实时控制。该模型展现了将互联网级语义知识与机器人控制相结合的前景，有望实现更智能、更通用的机器人控制系统。

2025-08-23 10:14:01 838

原创 Flow Matching：让生成模型“流动”起来

本文介绍了Flow Matching模型，这是一种比扩散模型更直接的生成方法。它将生成过程视为连续的流体运动，通过学习一个"速度场"来引导噪声数据流向目标分布。文章详细阐述了其数学原理，包括通过常微分方程描述点随时间的变化轨迹，以及推理过程中使用欧拉法进行数值积分的方法。训练阶段通过设计直线路径来构建目标速度场。最后提供了一个简单的PyTorch实现示例，演示如何将二维高斯噪声分布转化为双峰目标分布。该方法避免了扩散模型复杂的噪声调度设计，提供了一种更直观的生成建模思路。

2025-08-22 15:32:43 1646

原创 Diffusion：如何从噪声中生成清晰图像

扩散模型是当前AI图像生成领域的核心基础，如Stable Diffusion、DALL·E等热门模型均采用该技术。其原理分为训练和推理两个阶段：训练时通过逐步加噪图片，让AI学习如何去除噪声；推理时则从随机噪声出发，结合文本提示逐步去噪生成清晰图像。模型架构通常包含文本编码器、生成模型（如U-Net）和解码器三部分，通过多轮迭代将低维潜在空间表示转化为最终图像。这种技术模拟了艺术家从混沌中雕琢作品的过程，实现了从随机噪声到目标图像的智能生成。

2025-08-21 18:13:14 1111

原创视觉Token如何注入语言模型？VLM拆解

视觉-语言大模型（VLM）是视觉与语言大模型的融合，旨在实现多模态理解与交互。核心架构包含视觉编码器（如ViT）、投影器（对齐视觉与文本特征）和LLM（生成自然语言响应）。VLM通过预训练和零样本预测实现跨模态语义对齐，支持图像描述、视觉问答等任务。CLIP等模型采用对比学习目标，无需任务特定训练即可完成新类别识别。相比传统方法，VLM利用海量网络数据，减少人工标注依赖，具备更强的泛化能力。

2025-08-20 17:00:33 1635

原创解读ViT：Transformer在视觉领域如何落地

视觉大模型ViT（Vision Transformer）将自然语言处理中的transformer架构引入计算机视觉领域。其核心是将图像分割为16x16的patch并展平为向量序列，通过线性投影映射到transformer的输入维度，加入位置编码后输入到transformer编码器。相比传统CNN，ViT能更好捕捉全局依赖关系，在大规模数据集上表现优异。关键处理包括：图像分块展平为序列、线性投影降维、可学习位置编码，最终通过[CLS] token进行分类预测。ViT证明了transformer在视觉任务中的潜

2025-08-19 18:06:16 1085

原创 RISC-V架构Linux系统启动分析

本文主要分析了RISC-V架构下Linux内核启动流程中的关键环节，重点关注虚拟地址与物理地址的映射机制。文章首先概述了Linux系统启动流程，重点围绕arch/riscv/kernel/head.S中的代码展开分析，详细介绍了初始化过程中关闭中断、浮点检测、主hart选择等关键步骤。随后深入探讨了虚拟地址空间与物理内存的映射关系，解释了页表在地址转换中的作用，包括二级页表结构及其寻址转换过程。

2025-08-15 21:38:37 505

原创从零实现 Transformer：中英文翻译实例

在https://www.laumy.tech/2458.html#h37章节中，介绍了transformer的原理，本章用pytorch来实现一个将"我有一个苹果"翻译为英文"I have an apple"的模型，直观体会transformer原理实现。接下来先上图看看整体的代码流程。到这里就涵盖了整个transformer模型翻译的例子了，下面的章节只是对图中的代码进行展开说明，如果不想陷入细节，可以直接跳转到最后一节获取源码运行实验一下。（1）准备原始文本对既然要做翻译那得先有数据用于模型训练，因

2025-08-14 16:01:14 1073

原创 Transformer 原理解析：从注意力机制到自回归生成

以翻译作为例子，从宏观角度理解大模型，可以把大模型视为一个黑匣子，它可以输入一种语言然后输出另外一种翻译语言，如下图所示。如果将模型稍微展开一下，模型分为encoders和decoders两部分。为什么要分为编码器和解码器了？主要是从以下动机考量。条件生成需求：在机器翻译、摘要、对话等条件文本生成任务重，需要读懂输入再逐步输出目标序列这两个事情的约束不同。读懂输入需要双上下文（每个词即要看到左也要右），也就是说要在上下文中去理解，没有因果约束。

2025-08-11 10:27:46 1024

laumy的学习笔记