self-motivation-CSDN博客

原创 model_optimizer最新特性-------实时显示pi05模型推理性能和精度

聚焦于机器人端侧vla模型(如pi05)在jetson thor上的高效优化和部署如果觉得对你有帮助,给个star吧。

2026-04-07 20:42:43 23

原创 Orbit更多亮点功能介绍

项目地址

2026-04-06 10:47:00 13

原创 Orbit----开源Agent及多Agent协作平台

挑选智能头像,配置llm供应商。

2026-04-04 10:08:42 376

原创 claud-code源码分析(六) --------- swarm多agent协作

本文档总结 ClaudeCode 中的多 agent 协作编排能力（Swarm / Agent Teams / Teammates）：它如何被启用、如何创建团队与成员、如何在不同 backend（tmux/iTerm2/in-process）下运行、如何进行权限提示的跨 agent 协调、以及常见 workflow 与注意事项。

2026-04-01 00:13:38 65

原创 claud-code源码分析(五) ------- context实现

本文档总结 ClaudeCode 中 “context（上下文）” 的实现原理、注入流程、调用方以及常见注意事项。

2026-03-31 23:40:23 250 1

原创 claud-code源码分析(四) -------- sandbox实现

本文档总结 ClaudeCode 中“命令沙盒（sandbox）”的实现方式、调用链路与安全模型。这里的sandbox不是一个独立的顶层sandbox/目录，而是通过适配层对外部依赖进行集成，并贯穿与。

2026-03-31 23:22:20 52

原创 claud-code源码分析(二) ------- agent执行流程

本文基于仓库源码对@agents（主要是）进行静态分析，梳理的全链路、、以及常见的实现机制。说明：代码中把“子代理/子任务”统一纳入（本地 agent task、远端 agent task、shell task 等都走同一套任务面板/输出文件/通知机制）。

2026-03-31 23:11:01 58

原创 claud-code源码分析(二) ----------- memory实现

索引-正文分离MEMORY.md只做一行指针，正文在 topic 文件；避免上下文污染双层截断：entrypoint 行 + 字节截断（长行灾难防护）相关性检索闭环：frontmatter（description）→ manifest → sideQuery 选择 → 读取注入（带新鲜度提示与截断说明）非阻塞 prefetch：把 recall 成本藏在 turn 的并行阶段，不阻塞主链路权限与信任边界：默认 memdir 写入 carve-out + override 降权；

2026-03-31 22:59:37 63

原创 claud-code源码分析(一) -------------------------代码架构

本文档基于当前仓库（ClaudeCode）源码做静态梳理，重点描述与，用于快速上手与定位问题。

2026-03-31 22:49:38 143

原创自动写hpc ops项目

（各子目录 README 中给出 FLOPs 公式）。（不含 cp.async 扩展；生成，勿提交二进制与 CMake 缓存。代码按算子分目录，同一算子下再按。在 GPU 上对比多种实现路径的。等分子工程，便于横向对照与扩展。的目录（任意层级）已写入。，含编译命令与指标定义。

2026-03-29 20:48:57 23

原创 cutlass代码架构分析

以cute抽象为底座、以cutlass模板算子为主体、以 tools/examples/test/python 构成工程化闭环，并通过按架构特化文件族持续扩展到新 GPU 代际。

2026-03-26 22:41:57 28

原创 RocketEbpf开源了

类别能力举例Aya 侧常见切入点执行与调度exec/fork、调度延迟、运行队列系统调用延迟分布、敏感调用审计tracepoint（raw 或 BTF）、kprobe文件与块 I/O读写路径、延迟、vfs 层事件网络包过滤与统计、重定向、连接跟踪XDPcgroup_skb、sockops/sk_msg 等内存与延迟页故障、分配路径（需合适钩子与内核支持）用户态对进程/共享库打点采样与剖析CPU 周期、栈采样（与 perf 协同）perf_event等程序类型安全策略。

2026-03-20 15:31:50 68

原创 pi05 推理流程笔记

从infer.pyobs→（输入 transforms/归一化/reshape）→→（prefix KV cache + 多步 denoise/ODE 积分）→（输出 transforms/反归一化）→actions。

2026-03-18 14:50:49 30

原创 openclaw架构分析(三) -------------- memory实现分析

从实现角度看，OpenClaw 并没有把“长/短期记忆”拆成完全不同的系统，而是通过同一个 MemoryIndexManager + 配置/源的区分长期记忆（Long-term Memory）sources中的"memory"，对应工作区中的代码、文档、笔记等；存储：SQLite 索引文件（默认在 state 目录同步：以文件监听与周期同步为主，不太频繁；检索：embedding + FTS 混合，结合 MMR/时间衰减。短期记忆（Short-term / Session Memory）

2026-03-15 20:00:01 850

原创当我用cursor实现一个openclaw

本篇文章介绍如何与AI agent协作完成一个python版的openclaw,以及在实现过程的一些感悟。

2026-03-15 15:47:31 149

原创 mw4agent---------agent时代的中间件

仿照openclaw实现的python版本,主要用于学习agent中间件需要提供的能力.

2026-03-15 09:46:22 28

原创 openclaw架构分析(二) ----------- dashboard实现分析

本文基于openclaw仓库源码与官方文档，对的前端实现做一次整体梳理，方便在 MW4Agent 中对标实现类似的 Web 控制台。

2026-03-13 22:48:42 865

原创 openclaw架构分析(一) ------- 源码结构

的流水线，CLI/TUI 也是通过 Gateway 这条管线走聊天请求。等）→ Agent/模型 → 再通过 outbound 发送回各渠道""多渠道入口 → 路由/会话 → 网关 RPC（chat.

2026-03-09 17:07:05 561

原创 π0.5部署实战(一) ------ 在Thor上使用NVFP4量化

此篇文章是pi05模型在thor上部署系列文章的第一篇.主要介绍如何对pi05 2.6B LLM(Gemma)使用nvfp4进行量化.所有操作使用开源工具可以先参考进行环境的准备和安装,在上完成以下操作.

2026-02-27 20:14:46 91

原创深入量化(一) ------ awq: 激活感知的权重量化

LLM模型的参数量越来越大,由于信息安全与实时性的原因,在边缘设备这种计算和内存受限的环境中部署大参数量的LLM模型很有必要。模型压缩即量化是很成功和常用的方法。如何尽可能的使用低比特表示权重而又不损失模型的性能。：大模型的权重并非同等重要，保护其中1%的权重（如不做量化）即可大大减少模型误差。而找到这1%的关键权重需要参考激活值，而非权重自身。如上图，如果我们保持关键的1%权重仍使用FP16，则能在减少权重大小的情况下大大保持模型精度。和激活的分布相关，而和权重的大小无关。

2026-02-17 15:36:57 58

原创推理优化----量化论文精读(一)-------AWQ 基于激活感知的权重量化

大型语言模型（LLM）已改变了众多人工智能应用。端侧LLM的重要性日益凸显：在边缘设备本地运行LLM可降低云端计算成本并保护用户隐私隐私。然而，天文级的模型规模与有限的硬件资源带来了显著的部署挑战挑战.我们提出了一种名为激活感知量化（AWQ）的硬件友好型大型语言模型（LLM）量化方法低比特权重量化。AWQ发现大型语言模型（LLM）中的权重并非同等重要。保护仅1%的显著权重即可大幅降低量化误差。为识别显著权重通道，我们应当请参考激活分布，而非权重.

2026-02-17 00:03:34 143

原创在jetson thor上高效部署π0.5

方法并动态替换pytorch实现,这样可以灵活地替换我们想优化性能的部分。再保持高灵活性的同时兼顾推理性能。其中方法2的难点是如何将tensorrt engine与pytorch流程结合起来，具体细节有个生产级的开源项目, 已经完成了量化，编译，部署。基本思路是将tensorrt engine调用封装成。或者使用pytorch +如使用pytorch +

2026-02-10 17:13:02 127

原创具身智能模型端侧部署与优化实战 -------- 简介

在端侧算力和资源受限的环境中((ORIN,THOR,J6P),如何让VLA模型高效地运行起来，让推理实时地满足和行动与环境实时交互。使用主流的模型压缩(FP4等)与推理优化(cuda graph, trt engine等)技术,使VLA模型达到业界一流的推理效能(帧率与资源使用)以作者在工业实践中的经验，结合生产级的模型优化与部署框架代码，一站式高效地对模型进行量化，评测，部署和推理优化。《具身智能模型端侧部署与优化实战》系列教程正是为解决这一问题而写，为开发者提供从理论到落地的完整技术路径。

2026-02-01 10:35:07 78

原创 torch.compile backend详解

gm: torch.fx.GraphModule, # 计算图example_inputs: List[torch.Tensor] # 示例输入"""gm: 经过追踪得到的计算图模块example_inputs: 示例输入，用于推断形状和类型返回一个可调用对象，用于执行计算图"""# 这里可以对gm进行优化，也可以直接返回gm.forward# 简单示例：直接返回原计算图的forward# 使用自定义后端# 打印计算图# 可以在这里进行自定义的图优化# ...

2026-01-10 21:13:57 126

原创 cuda编程 --------- warp 级别规约指令 __shfl_xor_sync

_shfl_xor_sync 是 CUDA 中的一种 warp 级别洗牌指令（shuffle instruction），用于在 warp 内的线程之间交换数据。它允许线程直接读取同一 warp 中另一个线程的寄存器值，而无需通过共享内存或全局内存。这样可以实现高效的线程间通信，并减少共享内存的使用。具体来说，__shfl_xor_sync 通过按位异或（XOR）操作来确定目标线程的索引。每个线程都可以从与自身线程索引按位异或一个特定值（称为掩码）的线程中获取数据。

2025-12-07 19:42:22 160

原创征机器人领域主流模型量化，评测，优化，部署工具model_optimizer的开源合作开发

在thor上测试，fp8/entroy量化下模型精度损失很小，可以满足生产要求。希望有对机器人模型感兴趣的一起共建。也可以通过项目交流机器人行业动态。模型的in8/fp8, amax/entroy量化.简化机器人领域模型的量化，评测，优化，部署流程。的量化评测与优化部署。

2025-11-29 10:16:07 178

原创 CUDA性能优化 ---- 通过矢量化内存访问提高性能

使用矢量化加载可以减少指令总数，降低延迟，并提高带宽利用率.使用矢量化加载的最简单方法是使用CUDA C++标准头文件中定义的矢量数据类型，如int2、int4或float2、float4.这些类型表示打包在一个数据单元中的多个值。您可以通过C++中的类型转换轻松使用这些类型.例如，在C++中，你可以使用reinterpret_cast<int2*>（d_in）将int指针d_in重写为int2指针，该指针将一对“int”值视为一个单元。您还可以使用结构生成矢量化加载，只要该结构的大小是两个字节的幂。

2025-09-20 21:06:46 317

openstack资料

空空如也