自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(358)
  • 资源 (1)
  • 收藏
  • 关注

原创 model_optimizer最新特性-------实时显示pi05模型推理性能和精度

聚焦于机器人端侧vla模型(如pi05)在jetson thor上的高效优化和部署如果觉得对你有帮助,给个star吧。

2026-04-07 20:42:43 23

原创 Orbit更多亮点功能介绍

项目地址

2026-04-06 10:47:00 13

原创 Orbit----开源Agent及多Agent协作平台

挑选智能头像,配置llm供应商。

2026-04-04 10:08:42 376

原创 claud-code源码分析(六) --------- swarm多agent协作

本文档总结 ClaudeCode 中的多 agent 协作编排能力(Swarm / Agent Teams / Teammates):它如何被启用、如何创建团队与成员、如何在不同 backend(tmux/iTerm2/in-process)下运行、如何进行权限提示的跨 agent 协调、以及常见 workflow 与注意事项。

2026-04-01 00:13:38 65

原创 claud-code源码分析(五) ------- context实现

本文档总结 ClaudeCode 中 “context(上下文)” 的实现原理、注入流程、调用方以及常见注意事项。

2026-03-31 23:40:23 250 1

原创 claud-code源码分析(四) -------- sandbox实现

本文档总结 ClaudeCode 中“命令沙盒(sandbox)”的实现方式、调用链路与安全模型。这里的sandbox不是一个独立的顶层sandbox/目录,而是通过适配层对外部依赖进行集成,并贯穿与。

2026-03-31 23:22:20 52

原创 claud-code源码分析(二) ------- agent执行流程

本文基于仓库源码对@agents(主要是)进行静态分析,梳理的全链路、、以及常见的实现机制。说明:代码中把“子代理/子任务”统一纳入(本地 agent task、远端 agent task、shell task 等都走同一套任务面板/输出文件/通知机制)。

2026-03-31 23:11:01 58

原创 claud-code源码分析(二) ----------- memory实现

索引-正文分离MEMORY.md只做一行指针,正文在 topic 文件;避免上下文污染双层截断:entrypoint 行 + 字节截断(长行灾难防护)相关性检索闭环:frontmatter(description)→ manifest → sideQuery 选择 → 读取注入(带新鲜度提示与截断说明)非阻塞 prefetch:把 recall 成本藏在 turn 的并行阶段,不阻塞主链路权限与信任边界:默认 memdir 写入 carve-out + override 降权;

2026-03-31 22:59:37 63

原创 claud-code源码分析(一) -------------------------代码架构

本文档基于当前仓库(ClaudeCode)源码做静态梳理,重点描述与,用于快速上手与定位问题。

2026-03-31 22:49:38 143

原创 自动写hpc ops项目

(各子目录 README 中给出 FLOPs 公式)。(不含 cp.async 扩展;生成,勿提交二进制与 CMake 缓存。代码按算子分目录,同一算子下再按。在 GPU 上对比多种实现路径的。等分子工程,便于横向对照与扩展。的目录(任意层级)已写入。,含编译命令与指标定义。

2026-03-29 20:48:57 23

原创 cutlass代码架构分析

以cute抽象为底座、以cutlass模板算子为主体、以 tools/examples/test/python 构成工程化闭环,并通过按架构特化文件族持续扩展到新 GPU 代际。

2026-03-26 22:41:57 28

原创 RocketEbpf开源了

类别能力举例Aya 侧常见切入点执行与调度exec/fork、调度延迟、运行队列系统调用延迟分布、敏感调用审计tracepoint(raw 或 BTF)、kprobe文件与块 I/O读写路径、延迟、vfs 层事件网络包过滤与统计、重定向、连接跟踪XDPcgroup_skb、sockops/sk_msg 等内存与延迟页故障、分配路径(需合适钩子与内核支持)用户态对进程/共享库打点采样与剖析CPU 周期、栈采样(与 perf 协同)perf_event等程序类型安全策略。

2026-03-20 15:31:50 68

原创 pi05 推理流程笔记

从infer.pyobs→(输入 transforms/归一化/reshape)→→(prefix KV cache + 多步 denoise/ODE 积分)→(输出 transforms/反归一化)→actions。

2026-03-18 14:50:49 30

原创 openclaw架构分析(三) -------------- memory实现分析

从实现角度看,OpenClaw 并没有把“长/短期记忆”拆成完全不同的系统,而是通过同一个 MemoryIndexManager + 配置/源的区分长期记忆(Long-term Memory)sources中的"memory",对应工作区中的代码、文档、笔记等;存储:SQLite 索引文件(默认在 state 目录同步:以文件监听与周期同步为主,不太频繁;检索:embedding + FTS 混合,结合 MMR/时间衰减。短期记忆(Short-term / Session Memory)

2026-03-15 20:00:01 850

原创 当我用cursor实现一个openclaw

本篇文章介绍如何与AI agent协作完成一个python版的openclaw,以及在实现过程的一些感悟。

2026-03-15 15:47:31 149

原创 mw4agent---------agent时代的中间件

仿照openclaw实现的python版本,主要用于学习agent中间件需要提供的能力.

2026-03-15 09:46:22 28

原创 openclaw架构分析(二) ----------- dashboard实现分析

本文基于openclaw仓库源码与官方文档,对的前端实现做一次整体梳理,方便在 MW4Agent 中对标实现类似的 Web 控制台。

2026-03-13 22:48:42 865

原创 openclaw架构分析(一) ------- 源码结构

的流水线,CLI/TUI 也是通过 Gateway 这条管线走聊天请求。等)→ Agent/模型 → 再通过 outbound 发送回各渠道""多渠道入口 → 路由/会话 → 网关 RPC(chat.

2026-03-09 17:07:05 561

原创 π0.5部署实战(一) ------ 在Thor上使用NVFP4量化

此篇文章是pi05模型在thor上部署系列文章的第一篇.主要介绍如何对pi05 2.6B LLM(Gemma)使用nvfp4进行量化.所有操作使用开源工具可以先参考进行环境的准备和安装,在上完成以下操作.

2026-02-27 20:14:46 91

原创 深入量化(一) ------ awq: 激活感知的权重量化

LLM模型的参数量越来越大,由于信息安全与实时性的原因,在边缘设备这种计算和内存受限的环境中部署大参数量的LLM模型很有必要。模型压缩即量化是很成功和常用的方法。如何尽可能的使用低比特表示权重而又不损失模型的性能。:大模型的权重并非同等重要,保护其中1%的权重(如不做量化)即可大大减少模型误差。而找到这1%的关键权重需要参考激活值,而非权重自身。如上图,如果我们保持关键的1%权重仍使用FP16,则能在减少权重大小的情况下大大保持模型精度。和激活的分布相关,而和权重的大小无关。

2026-02-17 15:36:57 58

原创 推理优化----量化论文精读(一)-------AWQ 基于激活感知的权重量化

大型语言模型(LLM)已改变了众多人工智能应用。端侧LLM的重要性日益凸显:在边缘设备本地运行LLM可降低云端计算成本并保护用户隐私隐私。然而,天文级的模型规模与有限的硬件资源带来了显著的部署挑战挑战.我们提出了一种名为激活感知量化(AWQ)的硬件友好型大型语言模型(LLM)量化方法低比特权重量化。AWQ发现大型语言模型(LLM)中的权重并非同等重要。保护仅1%的显著权重即可大幅降低量化误差。为识别显著权重通道,我们应当请参考激活分布,而非权重.

2026-02-17 00:03:34 143

原创 在jetson thor上高效部署π0.5

方法并动态替换pytorch实现,这样可以灵活地替换我们想优化性能的部分。再保持高灵活性的同时兼顾推理性能。其中方法2的难点是如何将tensorrt engine与pytorch流程结合起来,具体细节有个生产级的开源项目, 已经完成了量化,编译,部署。基本思路是将tensorrt engine调用封装成。或者使用pytorch +如使用pytorch +

2026-02-10 17:13:02 127

原创 具身智能模型端侧部署与优化实战 -------- 简介

在端侧算力和资源受限的环境中((ORIN,THOR,J6P),如何让VLA模型高效地运行起来,让推理实时地满足和行动与环境实时交互。使用主流的模型压缩(FP4等)与推理优化(cuda graph, trt engine等)技术,使VLA模型达到业界一流的推理效能(帧率与资源使用)以作者在工业实践中的经验,结合生产级的模型优化与部署框架代码,一站式高效地对模型进行量化,评测,部署和推理优化。《具身智能模型端侧部署与优化实战》系列教程正是为解决这一问题而写,为开发者提供从理论到落地的完整技术路径。

2026-02-01 10:35:07 78

原创 torch.compile backend详解

gm: torch.fx.GraphModule, # 计算图example_inputs: List[torch.Tensor] # 示例输入"""gm: 经过追踪得到的计算图模块example_inputs: 示例输入,用于推断形状和类型返回一个可调用对象,用于执行计算图"""# 这里可以对gm进行优化,也可以直接返回gm.forward# 简单示例:直接返回原计算图的forward# 使用自定义后端# 打印计算图# 可以在这里进行自定义的图优化# ...

2026-01-10 21:13:57 126

原创 cuda编程 --------- warp 级别规约指令 __shfl_xor_sync

_shfl_xor_sync 是 CUDA 中的一种 warp 级别洗牌指令(shuffle instruction),用于在 warp 内的线程之间交换数据。它允许线程直接读取同一 warp 中另一个线程的寄存器值,而无需通过共享内存或全局内存。这样可以实现高效的线程间通信,并减少共享内存的使用。具体来说,__shfl_xor_sync 通过按位异或(XOR)操作来确定目标线程的索引。每个线程都可以从与自身线程索引按位异或一个特定值(称为掩码)的线程中获取数据。

2025-12-07 19:42:22 160

原创 征机器人领域主流模型量化,评测,优化,部署工具model_optimizer的开源合作开发

在thor上测试,fp8/entroy量化下模型精度损失很小,可以满足生产要求。希望有对机器人模型感兴趣的一起共建。也可以通过项目交流机器人行业动态。模型的in8/fp8, amax/entroy量化.简化机器人领域模型的量化,评测,优化,部署流程。的量化评测与优化部署。

2025-11-29 10:16:07 178

原创 CUDA性能优化 ---- 通过矢量化内存访问提高性能

使用矢量化加载可以减少指令总数,降低延迟,并提高带宽利用率.使用矢量化加载的最简单方法是使用CUDA C++标准头文件中定义的矢量数据类型,如int2、int4或float2、float4.这些类型表示打包在一个数据单元中的多个值。您可以通过C++中的类型转换轻松使用这些类型.例如,在C++中,你可以使用reinterpret_cast<int2*>(d_in)将int指针d_in重写为int2指针,该指针将一对“int”值视为一个单元。您还可以使用结构生成矢量化加载,只要该结构的大小是两个字节的幂。

2025-09-20 21:06:46 317

原创 评估训练模型所需的算力

10亿参数模型:需约1-10 PetaFLOP/s-days(等效1万亿次浮点运算持续1天)千亿参数(如GPT-3):约3,000-5,000 PetaFLOP/s-days万亿参数模型:超过50,000 PetaFLOP/s-days。

2025-01-29 15:17:48 1542

原创 了解cuda的统一内存

在CUDA 6中,从Kepler GPU架构(计算能力3.0或更高)开始,在64位Windows 7、8和Linux操作系统(内核2.6.18+)上开始支持统一内存.从CUDA 6开始,NVIDIA推出了CUDA平台历史上最引人注目的编程模型改进之一 ----统一内存。在当今典型的PC或集群节点中,CPU和GPU的内存在物理上是不同的,并由PCI Express总线分隔。在CUDA 6之前,程序员必须这样看待事物。CPU和GPU之间共享的数据必须在两个内存中分配,并由程序在它们之间明确复制。

2024-12-21 18:51:37 1127

原创 gpu硬件架构

NVIDIA在视觉计算和人工智能(AI)领域处于领先地位;其旗舰GPU已成为解决包括高性能计算和人工智能在内的各个领域复杂计算挑战所不可或缺的。虽然它们的规格经常被讨论,但很难掌握各种组件的清晰完整的图景。这些GPU的高性能源于其许多组件的无缝集成,每个组件在提供顶级结果方面都发挥着至关重要的作用。本篇文章将对NVIDIA GPU的每个组件进行详细的介绍,从架构和图形处理集群(GPC)到单个核心。另外还有确保高效数据访问的复杂内存层次结构。

2024-12-14 23:28:04 1370

原创 深入理解linux内核 --------- CFS调度

else通过上面的代码,可以看到调度周期的时间长度分2种情况。如果当前可运行的任务数>8,则用最小运行时间(0.75ms)*可运行的任务数sysctl_sched_min_granularity: //为了减少任务切换,最小的运行时间片0.75ms.如果运行队列上的任务数

2024-08-28 20:36:14 1495 1

原创 BPF可移植性 CO-RE (Compile Once – Run Everywhere)

BPF CO-RE的目标是帮助BPF开发人员以简单的方式解决简单的可移植性问题(如读取结构字段),并使其仍然有可能(如果不是微不足道的话,也是可以容忍的)解决复杂的可移植问题(如不兼容的数据结构更改、复杂的用户空间控制条件等)。这允许BPF开发人员停留在“编译一次–到处运行”的范式中。这是通过组合几个BPF CO-RE构建块来实现的,如本篇文章的内容所述:vmlinux.h消除内核头文件依赖字段重定位(字段偏移、存在、大小等)使从内核提取数据变得可移植。

2024-07-01 16:35:05 312

原创 BPF可移植性 CO-RE (Compile Once – Run Everywhere)

BPF CO-RE的目标是帮助BPF开发人员以简单的方式解决简单的可移植性问题(如读取结构字段),并使其仍然有可能(如果不是微不足道的话,也是可以容忍的)解决复杂的可移植问题(如不兼容的数据结构更改、复杂的用户空间控制条件等)。这允许BPF开发人员停留在“编译一次–到处运行”的范式中。这是通过组合几个BPF CO-RE构建块来实现的,如本篇文章的内容所述:vmlinux.h消除内核头文件依赖字段重定位(字段偏移、存在、大小等)使从内核提取数据变得可移植。

2024-07-01 16:30:45 338

原创 deepE 定位系统卡顿问题实战(一) ----------- 锁造成的阻塞问题

我们可以利用这个offcputime来分析实际环境中因为各种原因造成的进程阻塞及卡顿问题.

2024-06-28 15:13:22 477

原创 堆栈推导两种方式fp与dwarf的差异与原理解析

堆栈推导一般用于coredump文件分析,火焰图制作等场景.了解其原理,有助于帮助我们分析异常问题,以及优化火焰图的制作流程,减少不完整栈情况的出现.堆栈推导有两种常见方式:fp与dwarf. 本篇文章介绍这2种堆栈推导方式的原理及适用场景.

2024-06-28 10:56:54 536

原创 deepE版本支持aarhc64 orin平台发布

欢迎参与deepE项目。

2024-06-25 11:18:24 190

原创 deepE第一个版本发布了

deepE(deep edge): 是一个用于端侧(自动驾驶车、机器人等)的性能监控和分析工具.deepE的理念是高效地对端侧系统提供全面的可观测性和系统分析工具,让端侧系统高效稳定的运行.

2024-06-11 16:27:24 686

原创 chatgpt4和文心一言的简单对比

文心一言给出了分析udp延迟的步骤比较具体(数据包达到和应用程序读取之间的时间差)chatgpt4给出的原理更加抽象,需要记录期望的2个时间点间的时间差,适用范围明显更广.

2024-06-02 20:05:54 2418 1

原创 linux可观测性ebpf(一) ----------- 环境搭建

因为学习的书比较老,所以libbpf我们要使用v.8.0.0版本。

2024-06-01 10:04:56 439

原创 linux i/o基本原理

linux对每个磁盘或分区都维护有一个请求队列,i/o算法会进行操作的合并重排等操作以优化性能。

2024-05-23 10:19:34 248

openstack资料

openstack相关资料

2017-01-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除