自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 开源底盘+机械臂机器人:Lekiwi驱动链路分析

Lekiwi机器人系统采用底盘+机械臂的硬件架构,包含6自由度机械臂和3轮全向移动底盘。软件采用三层架构:应用层(设备操作)、总线层(统一接口)、设备层(具体实现),但当前设计未完全隔离底层设备。系统初始化时配置电机参数和相机,连接过程包括串口握手、状态检查及参数设置。校准功能支持使用现有校准文件或重新校准,通过调整机械臂到中间位置并记录运动范围来实现。整体设计注重模块化,但软件架构有待优化以实现更好的设备抽象。

2025-10-28 19:34:00 1182

原创 机器人全身控制浅谈:理解 WBC 的原理

WBC(全身控制)是一种通过优化方法协调机器人各关节运动的技术,核心思想是将多个任务(如平衡、动作执行)和物理约束转化为二次规划问题,在毫秒级控制周期内求解最优关节力矩。其数学模型基于机器人动力学方程,考虑惯性力、接触反力等物理因素,通过雅可比矩阵连接关节空间与任务空间。示例代码展示了如何使用CVXPY库求解一个简化版机械臂的WBC问题,实现末端执行器加速度跟踪目标。

2025-09-29 17:20:20 1627

原创 机器人控制利器:MPC入门与实践解析

摘要: MPC(模型预测控制)是一种基于系统模型预测未来状态并优化控制输入的控制方法,适用于机器人、无人驾驶等领域。其核心流程包括:建立系统状态模型(如$x_{k+1}=Ax_k+Bu_k$),预测未来N步状态,构建目标函数$J$(权衡状态误差与控制成本),添加约束条件后求解最优控制序列。MPC采用滚动时域机制,每次仅执行第一步控制量并重新预测,形成闭环反馈。示例中,MPC控制一维小车从0加速到目标位置10米并减速至停止,通过动态优化实现平滑控制。

2025-09-28 18:31:42 930

原创 LeRobot SmolVLA:从训练到推理链路剖析

本文分析了SmolVLA策略的实现框架,重点探讨了其训练和推理机制。该策略通过SmolVLAPolicy、VLAFlowMatching和SmolVLMWithExpertModel三个核心类实现,采用flow matching机制进行训练。

2025-08-27 17:54:07 1503 2

原创 轻量SmolVLA:半层VLM、视觉压缩与异步推理赋能具身智能

SmolVLA是一种轻量级视觉-语言-行动策略,通过精简模型结构实现高效机器人控制。其核心设计包括:1)前端采用小型VLM(视觉SigLIP+语言SmolLM2)进行感知理解,仅使用中间层特征;2)视觉token压缩技术,将每帧token从1024降至64;3)动作专家采用交叉注意力与因果自注意力交替的三明治结构。这些设计使得模型参数量仅0.45B,比同类模型小10倍,同时保持性能。训练采用Flow Matching方法预测动作序列,推理时支持异步执行以降低延迟。该方案在低算力环境下展现出高效的多任务控制能

2025-08-23 16:52:19 2129

原创 浅析Pi0 :VLM 与 Flow Matching 的结合之道

Pi0是一种新型通用机器人控制器,通过结合视觉-语言模型(VLM)和Flow Matching技术实现跨平台控制。其核心是将PaliGemma VLM的语义理解能力与Flow Matching的动作生成能力相结合。训练时,模型学习从噪声动作到真实动作的转换路径,采用直线路径插值方法。推理时只需10步即可生成高质量动作,适合实时控制。该模型展现了将互联网级语义知识与机器人控制相结合的前景,有望实现更智能、更通用的机器人控制系统。

2025-08-23 10:14:01 838

原创 Flow Matching:让生成模型“流动”起来

本文介绍了Flow Matching模型,这是一种比扩散模型更直接的生成方法。它将生成过程视为连续的流体运动,通过学习一个"速度场"来引导噪声数据流向目标分布。文章详细阐述了其数学原理,包括通过常微分方程描述点随时间的变化轨迹,以及推理过程中使用欧拉法进行数值积分的方法。训练阶段通过设计直线路径来构建目标速度场。最后提供了一个简单的PyTorch实现示例,演示如何将二维高斯噪声分布转化为双峰目标分布。该方法避免了扩散模型复杂的噪声调度设计,提供了一种更直观的生成建模思路。

2025-08-22 15:32:43 1646

原创 Diffusion:如何从噪声中生成清晰图像

扩散模型是当前AI图像生成领域的核心基础,如Stable Diffusion、DALL·E等热门模型均采用该技术。其原理分为训练和推理两个阶段:训练时通过逐步加噪图片,让AI学习如何去除噪声;推理时则从随机噪声出发,结合文本提示逐步去噪生成清晰图像。模型架构通常包含文本编码器、生成模型(如U-Net)和解码器三部分,通过多轮迭代将低维潜在空间表示转化为最终图像。这种技术模拟了艺术家从混沌中雕琢作品的过程,实现了从随机噪声到目标图像的智能生成。

2025-08-21 18:13:14 1111

原创 视觉Token如何注入语言模型?VLM拆解

视觉-语言大模型(VLM)是视觉与语言大模型的融合,旨在实现多模态理解与交互。核心架构包含视觉编码器(如ViT)、投影器(对齐视觉与文本特征)和LLM(生成自然语言响应)。VLM通过预训练和零样本预测实现跨模态语义对齐,支持图像描述、视觉问答等任务。CLIP等模型采用对比学习目标,无需任务特定训练即可完成新类别识别。相比传统方法,VLM利用海量网络数据,减少人工标注依赖,具备更强的泛化能力。

2025-08-20 17:00:33 1635

原创 解读ViT:Transformer在视觉领域如何落地

视觉大模型ViT(Vision Transformer)将自然语言处理中的transformer架构引入计算机视觉领域。其核心是将图像分割为16x16的patch并展平为向量序列,通过线性投影映射到transformer的输入维度,加入位置编码后输入到transformer编码器。相比传统CNN,ViT能更好捕捉全局依赖关系,在大规模数据集上表现优异。关键处理包括:图像分块展平为序列、线性投影降维、可学习位置编码,最终通过[CLS] token进行分类预测。ViT证明了transformer在视觉任务中的潜

2025-08-19 18:06:16 1085

原创 RISC-V架构Linux系统启动分析

本文主要分析了RISC-V架构下Linux内核启动流程中的关键环节,重点关注虚拟地址与物理地址的映射机制。文章首先概述了Linux系统启动流程,重点围绕arch/riscv/kernel/head.S中的代码展开分析,详细介绍了初始化过程中关闭中断、浮点检测、主hart选择等关键步骤。随后深入探讨了虚拟地址空间与物理内存的映射关系,解释了页表在地址转换中的作用,包括二级页表结构及其寻址转换过程。

2025-08-15 21:38:37 505

原创 从零实现 Transformer:中英文翻译实例

在https://www.laumy.tech/2458.html#h37章节中,介绍了transformer的原理,本章用pytorch来实现一个将"我有一个苹果"翻译为英文"I have an apple"的模型,直观体会transformer原理实现。接下来先上图看看整体的代码流程。到这里就涵盖了整个transformer模型翻译的例子了,下面的章节只是对图中的代码进行展开说明,如果不想陷入细节,可以直接跳转到最后一节获取源码运行实验一下。(1) 准备原始文本对既然要做翻译那得先有数据用于模型训练,因

2025-08-14 16:01:14 1073

原创 Transformer 原理解析:从注意力机制到自回归生成

以翻译作为例子,从宏观角度理解大模型,可以把大模型视为一个黑匣子,它可以输入一种语言然后输出另外一种翻译语言,如下图所示。如果将模型稍微展开一下,模型分为encoders和decoders两部分。为什么要分为编码器和解码器了?主要是从以下动机考量。条件生成需求:在机器翻译、摘要、对话等条件文本生成任务重,需要读懂输入再逐步输出目标序列这两个事情的约束不同。读懂输入需要双上下文(每个词即要看到左也要右),也就是说要在上下文中去理解,没有因果约束。

2025-08-11 10:27:46 1024

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除