- 博客(3130)
- 收藏
- 关注
原创 手写算子优化 在上华为昇腾910 Ascend A3 上比 官方引擎vLLM-Ascend 快约 25%
摘要:Ascend-super 推理引擎在 Ascend A3 上实现了显著性能提升。测试显示,该引擎运行 DeepSeek-R1-Distill-Qwen-7B 模型时达到 47.1 tok/s,比 vLLM-Ascend 快 25.1%,比 torch_npu 快 36.0%。该项目采用 C++/AscendCL/ACLNN 直接推理路径,而非传统 PyTorch 或 vLLM 框架。测试环境为单 batch 128 tokens 生成任务,详细代码和配置已开源在 GitHub 仓库。
2026-05-27 12:04:09
389
原创 比华为官方 torch_npu 更快:我用 C++/Ascend 写了一个 7B deepseek推理引擎
本文介绍了一个基于C++和Ascend NPU的7B模型推理引擎项目,通过直接编写底层推理核心而非依赖PyTorch框架,在单batch解码场景下实现了35.7 tokens/s的速度,比华为官方torch_npu baseline快3.2%。作者详细展示了项目构建、模型下载、测试对比等完整流程,证明手写C++ runtime在Ascend设备上的性能优势。该项目采用Direct .so推理路径,将QKV、MLP等关键组件迁移到AscendCL/ACLNN,为低延迟推理提供了新思路。
2026-05-26 23:05:05
530
原创 算子级开源、不依赖 torch_npu:从零实现 Ascend 大模型推理引擎
本文介绍了一个面向Ascend NPU的自研大模型推理引擎项目LLM-inference-engine。该项目通过C++动态库libllm_ascend.so实现底层推理流程,支持DeepSeek-R1-Distill-Qwen-7B等大语言模型。项目特点包括:1) 不依赖torch_npu,直接使用AscendCL/CANN进行算子级优化;2) 将模型加载、内存管理、推理流程等核心功能实现在C++侧;3) 支持权重缓存、KV cache等优化技术;4) 提供性能分析功能。文章详细说明了项目架构、环境要求、
2026-05-26 10:53:29
384
原创 Jetson Orin AGX 上的 DeepSeek-R1-Distill-Qwen-7B INT4 量化推理实践:从 9 tok/s 到 19.6 tok/s
INT4 不是只把权重压到 4bit 就会快。INT4 必须让计算路径也进入整数点积。INT4 必须配合 int8 activation + DP4A,不能走 float 解包。
2026-05-22 15:59:23
844
原创 一个从零实现的 CUDA 大模型推理引擎
最近我在做一个比较硬核的小项目:用 C++ / CUDA 从零实现一个大模型推理引擎。这个项目当前主要面向 DeepSeek-R1-Distill-Qwen-7B 的单 batch 推理。它不是在 PyTorch、Transformers、vLLM 或 llama.cpp 上套一层接口,而是尽量把推理核心路径自己写出来,直接用 CUDA 实现模型 forward 和 decode。
2026-05-20 15:57:51
347
原创 摩西十戒
第一条:“我是耶和华-你的神,曾将你从埃及地为奴之家领出来,除了我之外,你不可有别的神。”第二条:“不可为自己雕刻偶像,也不可做什么形象仿佛上天、下地,和地底下、水中的百物。不可跪拜那些像,也不可事奉它,因为我耶和华-你的神是忌邪的神。恨我的,我必追讨他的罪,自父及子,直到三四代;爱我、守我戒命的,我必向他们发慈爱,直到千代。”第三条:“不可妄称耶和华-你神的名;因为妄称耶和华名的,耶和...
2019-01-11 17:57:25
3462
1
原创 经济学概念系统学习
这篇文章为创业者提供了一个实用的经济学学习框架,重点聚焦微观经济学和商业交易模型,而非传统宏观经济学理论。摘要如下: 四层学习框架:从微观经济学底层(机会成本、比较优势)→交易结构(交易成本、议价权)→单位经济模型(现金流、CAC/LTV)→增长与竞争结构(规模经济、止损机制)。 关键概念解析: 决策核心:用机会成本判断"该做什么",而非"能不能做"; 交易视角:强调信息不对称、委托代理等实际交易障碍; 生存指标:毛利率、现金流和单位经济模型比营收更重要; 增长逻辑:关注复购率、规模效应而非单纯订单量。 实
2026-06-08 15:09:38
311
原创 任何商业行为都要 问这几个问题 ,凭什么轮到你
这篇文章探讨了商业合作中的关键问题:付费动机与自身价值。核心在于分析"为什么选择我"——从客户付费原因、自身独特优势、交付能力到可扩展性,系统梳理了维持商业关系的底层逻辑。关键在于识别不可替代性(技术/资源门槛)与商业可行性(低成本交付+快速复制能力),同时明确区分与甲方自研及大厂方案的差异化定位。
2026-06-08 13:43:53
277
原创 DeepSeek-V4-Flash 在 4×A800 PCIe 上推理优化实践
FP4 (E2M1) 格式将 2 个 4-bit 权重打包在 1 个 uint8 中。// 在线 FP4 解包: 查表 + block scale 乘法设计要点每个 block 计算一个 (output_dim, token) 对,256 线程协作共享内存做 block 内 reductionGrid:— 单 token 解码时 grid 为(dim, 1)BF16 输入/输出,FP32 累积。
2026-06-07 14:16:05
313
原创 自研推理引擎 推理 deepseek R1 7B 比 华为官方 引擎 快25% 的原因
本文总结了在Ascend芯片上实现DeepSeek-R1-Distill-Qwen-7B模型47-50 tok/s推理速度的关键优化措施。主要优化包括:采用自研direct runtime绕过高层框架开销、启用KV缓存、权重预加载与缓存、QKV/MLP融合、优化CPU线程等。这些优化特别适合7B dense模型单batch解码场景。相比之下,A800运行DeepSeek-V4-Flash较慢的原因是:284B MoE模型结构复杂、FP4/FP8低精度权重在A800上需要额外转换、多卡通信开销大、路由调度碎片
2026-06-04 18:57:28
163
原创 Blackwell 架构和昇腾架构:从大模型数据流看 GPU 与 NPU 的收敛
从大模型专用计算的方向看,。但更准确地说:不是 Blackwell 变成了昇腾,而是二者都在被 Transformer / MoE 的计算结构逼向同一个方向:低精度矩阵计算、显式数据搬运、片上缓存流水、编译器与算子深度协同。也就是说,未来 AI 芯片的核心竞争,不再只是“GPU 还是 NPU”,而是谁能把大模型的矩阵数学最高效地映射成硬件数据流。
2026-06-04 18:04:33
137
原创 不是 NVIDIA 变成了昇腾,而是两者都在向同一个方向收敛:面向 Transformer 的专用数据流架构
是的,从“大模型专用计算”的方向看,NVIDIA 的 FP4/NVFP4 + Transformer Engine + TMA/WGMMA,确实越来越像昇腾这类 DSA/NPU 架构。这就是为什么 NVIDIA、昇腾、TPU、寒武纪、摩尔线程、沐曦都会越来越像。INT8 / FP16 / BF16 / FP8等路线,具体依平台。因为 FP4/NVFP4 已经不是“普通浮点计算”了。FP4 / NVFP4 架构是不是越来越像昇腾架构。FP4 / NVFP4 架构是不是越来越像昇腾架构。
2026-06-04 17:46:34
227
原创 后训练 / SFT / 参数更新的本质
本文阐述了后训练(SFT)的本质:在预训练模型基础上进行定向修正,而非重新训练。数学上表现为参数矩阵的增量更新(W'=W+ΔW)。通过监督训练使用"指令-高质量回答"数据,采用交叉熵损失和反向传播调整参数,改变模型在特定指令下的输出分布。训练方式可分为全参数微调、部分层冻结和LoRA/Adapter三种,其中LoRA通过低秩矩阵修正实现高效调整。核心在于:预训练赋予模型能力,后训练则优化其按照人类期望调用这些能力的方式。整个过程通过token级预测的teacher forcing方法实现。
2026-06-04 17:21:03
174
原创 FP4 / NVFP4 从数学角度统一总结
它是 4-bit 的非均匀浮点格点。真实值 ≈ FP4裸值 × block scale × global scale但工程上会用 calibration、clipping、QAT 或误差最小化来改进。FP4 提供一组极少的非均匀浮点格点;NVFP4 通过 block scale 和 global scale,把这些格点缩放到每个 block 的真实数值范围中,从而用 4 bit 近似表达 FP16/BF16/FP32 张量。
2026-06-04 16:56:47
171
原创 DPU 是干什么的:偏数学与工程视角
这里的 DPU 不是孤立存在,而是和 CPU、GPU、NVLink、网卡、交换芯片组成数据中心级 pipeline。大模型推理,尤其是 MoE 和长上下文模型,会有大量跨设备数据流。DPU 的作用就是把数据中心基础设施能力硬件化、可编程化、卸载化。在 Rubin 这类机架级 AI 系统中,DPU 的意义更明显。DPU 的价值就是降低 CPU 在数据路径上的负担。因为大模型系统越来越像分布式工厂,而不是单机程序。DPU 是这个“AI 工厂”里的基础设施处理器。DPU 的作用就是把物流系统硬件化和自动化。
2026-06-04 15:56:23
287
原创 Rubin 是 HBM4 + NVLink 6 + Vera CPU + 新 Transformer Engine 的下一代 AI 工厂平台
NVIDIA Rubin平台:下一代AI工厂架构 Rubin平台标志着NVIDIA从单卡算力堆叠转向机架级协同设计,通过整合GPU(Rubin)、CPU(Vera)、NVLink 6、DPU等组件构建完整的AI生产系统。其关键技术突破包括: 持续优化NVFP4推理性能,单GPU达50 PFLOPS; 采用HBM4显存(288GB/GPU,22TB/s带宽)解决大模型推理的数据供给瓶颈; 第三代Transformer Engine实现硬件级自适应压缩; NVLink 6提供3.6TB/s互联带宽,支持72颗G
2026-06-04 15:41:21
578
原创 Blackwell 是 FP4/NVFP4 + 第二代 Transformer Engine + 更大 NVLink 域 + 更强机架级推理系统
摘要: NVIDIA Blackwell架构相比Hopper的核心升级在于系统级优化AI推理、MoE、长上下文和FP4低精度场景,而非单纯性能提升。Blackwell引入第五代Tensor Core,原生支持FP4/NVFP4,结合第二代Transformer Engine优化低精度推理;采用NVFP4微缩技术,提升量化精度。第五代NVLink支持576 GPU互联,实现机架级推理系统,优化MoE跨GPU计算。B200配备最高180GB HBM3e显存和126MB L2缓存,缓解大模型推理的带宽压力。新增解
2026-06-04 15:35:32
262
原创 在 模型 量化的时候 ,改变了模型的数值 ,怎么保证 模型的 推理结果 一致呢
量化对大模型推理的影响 摘要:量化技术通过降低数值精度(如INT8/INT4)来压缩模型,但无法保证推理结果完全不变。其核心原理是控制量化误差,使logits排序基本保持,从而维持输出结果大体一致。量化误差随scale参数变化,当top1和top2的logit差距较大时结果稳定,接近时可能翻转。优化方法包括:精细scale选择、分组量化、混合精度、校准数据、异常值处理等。数学上无法严格一致,因误差会随网络层累积。评估标准应关注logits误差、困惑度等指标而非绝对一致。实现时需确保量化计算各环节精度,本质是
2026-06-03 20:19:38
420
原创 FP16 和 BF16 的数学表达
本文对比了FP16和BF16两种16位浮点数格式的数学表达与特性。FP16采用1-5-10位分配(符号-指数-尾数),具有较高的精度(10位尾数)但动态范围较小(最大65504);BF16采用1-8-7位分配,牺牲精度(7位尾数)换取更大的动态范围(最大约3.39e38),其指数设计与FP32相同。由于BF16的动态范围接近FP32且更稳定,能有效避免训练中的数值溢出问题,因此更适合大模型应用。核心区别在于FP16优先精度,BF16优先范围。
2026-06-03 20:02:52
217
原创 INT4 和 FP4 的数学表示范围
INT4和FP4在数学表示范围上存在核心差异。INT4(包括UINT4、有符号INT4和对称INT4)裸编码范围为整数离散值(如[-8,7]或[-7,7]),真实范围由scale决定,数值呈等间距分布。FP4(如E2M1/NVFP4)采用1位符号、2位指数、1位尾数的格式,裸值范围为[-6,6],数值呈非均匀分布(如±0.5,±1,±1.5等),且真实值需与block scale和global scale相乘。INT4适合线性量化,而FP4的非均匀特性更适配神经网络中数值的非均匀分布,能更好平衡小值精度和大
2026-06-03 19:57:16
223
原创 国产芯片是否有类似 NVIDIA TMA 的能力:华为、摩尔线程、沐曦对比
它是 NVIDIA Hopper 架构中的专用张量搬运硬件。把 global memory / HBM 中的大块 tensor tile高效、异步地搬到 shared memorycp.async也就是很多 CUDA 线程自己参与地址计算和数据搬运。以前:很多线程自己算地址、自己搬 tileTMA:一个线程提交 tensor copy descriptor硬件负责多维 tensor 地址计算和搬运其他线程继续计算Tensor Core 很快,但数据喂不上去。
2026-06-03 19:46:58
189
原创 TMA、WGMMA、FP8/FP4 等硬件能力解释
TMA 是搬数据,WGMMA 是算矩阵,FP8/FP4 是降低每个数的 bit 数。A800 缺的是 Hopper/Blackwell 这些新硬件路径,所以它的优化重点不是追 FP8/FP4,而是:把计算形状改造成 A800 擅长的 BF16/FP16 大 GEMM。
2026-06-03 19:34:54
334
原创 Ubuntu 24.04 安装搜狗输入法完整教程
Ubuntu 24.04安装搜狗输入法兼容性解决方案 摘要:针对Ubuntu 24.04默认使用Fcitx5和Wayland与搜狗输入法(基于Fcitx4)的兼容性问题,本文提供详细解决方案。通过卸载Fcitx5、安装Fcitx4框架、切换至Xorg显示服务器等步骤,成功实现搜狗输入法在Ubuntu 24.04上的稳定运行。教程包含系统环境准备、语言支持配置、输入法下载安装及常见问题处理,已验证可用于sogoupinyin_4.2.1.145版本。关键步骤包括清理原有输入法框架、设置开机自启动以及解决可能出
2026-05-29 18:12:20
333
1
原创 如何让 vLLM 推理自己 ascend的算子
适合把你当前的 QKV fusion、MLP gate/up fusion、attention kernel 接入 vLLM。cd ~csrc/op_host/op_kernel/在 C++/AscendC 侧实现你的算子 kernel 和 host launch。在 Python binding 中注册成可调用 op,例如。在 vllm-ascend 的模型执行路径中,把原来的 torch/torch_npu 算子替换成你的 op。# 示例:实际名字以你注册的 op 为准PY。
2026-05-27 10:49:00
393
1
原创 自研 LLM 推理引擎跑到了摩尔线程 MTT S4000 上:国产 GPU 路线,真的能跑起来
这篇文章想表达的不是“摩尔线程已经把 LLM 推理做到极致”。更准确地说,是:摩尔线程 MTT S4000 已经可以承载真实 LLM 推理工程的迁移实验;如果愿意深入 kernel 和后端优化,它有继续挖掘的空间。对我来说,这就是最值得兴奋的地方。不是因为它已经完美,而是因为它终于可以被认真优化了。
2026-05-24 18:29:29
563
原创 Jetson Orin AGX INT4 推理优化实践:super 分支从 9 tok/s 到 24 tok/s
本文总结了在 Jetson Orin AGX 上对 DeepSeek-R1-Distill-Qwen-7B 模型的 INT4 推理优化实践。通过分析发现,单纯将权重压缩为 INT4 并不能自动提升速度,关键在于实现 INT4 权重与 INT8 activation 的整数点积计算,利用 NVIDIA 的 DP4A 指令集优化。最终方案将解码速度从最初的 9 tok/s 提升至 24 tok/s,单 token 前向延迟降至 43ms。文章详细阐述了从浮点计算到 INT4 DP4A 的数学转换过程,验证了 I
2026-05-22 20:48:40
426
原创 在 Jetson AGX Orin 上运行自研 CUDA 大模型推理引擎
本文介绍了在Jetson AGX Orin上运行自研CUDA大模型推理引擎的实验。作者成功在Jetson AGX Orin(64GB RAM,Orin Ampere GPU)上实现了DeepSeek-R1-Distill-Qwen-7B模型的本地推理测试,使用C++/CUDA手写的推理核心路径而非现有框架。通过设置高性能模式(CPU 2201MHz,GPU 1300MHz)和针对sm_87架构的优化编译,最终实现了约8.6 tokens/s的推理速度(117.8ms/token)。实验对比了不同配置下的性能
2026-05-22 14:53:49
518
原创 目前是否已有“有限元式体素化几何空间 + 世界模型 + 强化学习规划”的大模型?
文章摘要: 目前尚未出现完全整合"有限元式体素化几何空间+世界模型+强化学习规划"的通用大模型,但相关技术已分散在多个领域。PerAct实现了体素化策略,VoxPoser构建了3D可操作性场,3D-VLA系列注入了几何理解,自动驾驶领域已形成Occupancy世界模型体系,而Cosmos平台提供物理世界生成能力。这些方向分别解决了体素化表示、affordance建模、几何推理和动态预测等子问题,但尚未统一成完整的机器人世界模型框架。主要障碍包括精细操作对几何精度的苛刻要求、连续动作空间的建模难度,以及真实物
2026-05-21 11:02:24
182
原创 世界模型如何编码和定义几何空间
图像、深度图、点云、语言、机器人关节、力觉、轨迹ztEotztEototo_tot:原始观察,比如 RGB 图像、深度图、机器人状态ztz_tzt:隐空间状态,也就是模型内部的“世界表示”zt1Fztatzt1Fztatpzt1∣ztatpzt1∣ztatztz_tzt不是随便一个向量,它必须承载世界的结构。几何含义对应问题距离两个状态像不像。
2026-05-21 10:34:25
489
原创 VLA 是多模态世界模型的过渡态:借助语言推理的世界模型雏形
看图 + 说话看图 + 理解任务 + 做动作这是一种重要跃迁。因为从“语言描述”到“实际动作”,意味着模型开始从现象描述进入现实干预。模型类型输入输出本质LLM文本文本语言概率模型VLM图像/视频 + 文本文本多模态理解模型VLA图像/视频 + 文本 + 状态动作语言条件化行动模型状态 + 动作下一状态世界演化预测模型Agent状态 + 目标长期动作序列闭环行动系统VLA 已经进入“动作空间”,所以它不是普通多模态模型。
2026-05-21 10:13:04
374
原创 LayerNorm:层归一化总结
LayerNorm(层归一化)是一种对神经网络隐藏层输出的标准化方法,核心是对每个token的隐藏向量进行中心化和尺度归一化。其计算步骤包括:减去均值、除以标准差,再通过可学习的缩放和平移参数调整。与RMSNorm相比,LayerNorm同时处理均值和方差,能更稳定地控制向量分布。在Transformer中,LayerNorm常用于残差连接后,防止梯度不稳定和数值爆炸。PyTorch实现中,LayerNorm沿hidden_dim维度归一化,保持batch和序列维度不变。本质上,LayerNorm通过标准化
2026-05-15 14:31:19
361
原创 RMSNorm:均方根归一化总结
对每个 token 的隐藏向量,计算它的整体能量 RMS,然后把向量除以这个能量,让进入 Attention / MLP 之前的尺度稳定下来。它不是复杂概念,也不是必须神秘化命名。多维向量的尺度归一化控制多维信号的整体能量稳定 Transformer 层间数值尺度,减少训练和推理中的数值波动一个只调长度、不强行移动中心的多维向量尺度控制器。
2026-05-15 14:20:08
456
原创 纯 Python 实现 SiLU 和 SwiGLU
本文介绍了纯Python实现的SwiGLU激活函数及其在MLP中的应用。SwiGLU定义为SiLU(a)×b,其中SiLU(a)=a·σ(a),σ(a)为sigmoid函数。文章首先实现了基础的sigmoid、SiLU和SwiGLU函数,然后扩展到向量运算,最后构建了一个完整的SwiGLU MLP模型。该MLP包含gate、up和down三个权重矩阵,通过矩阵向量乘法和逐元素运算实现特征变换。所有实现均不依赖第三方库,仅使用Python标准库完成,适合理解SwiGLU的核心原理。
2026-05-15 13:39:57
258
原创 BPE Tokenizer 完整入门:从汉字编码到 GPT-2 风格 Byte-Level BPE
本文介绍了BPE(Byte Pair Encoding)分词器的核心原理及其在GPT-2风格tokenizer中的应用。主要内容包括: 文本处理流程:从原始文本到token id的转换过程,重点说明BPE通过统计方法合并高频相邻片段来压缩文本长度。 汉字处理方式:详细解释了汉字如何通过Unicode和UTF-8编码转换为字节序列,以及GPT-2风格BPE如何对这些字节进行处理。 BPE算法详解:通过英文示例展示了BPE的分步统计合并过程,包括初始拆分、统计相邻对、合并高频对等核心步骤。 算法特点:强调BPE
2026-05-15 11:16:20
470
原创 沈家岭战斗过程总结
沈家岭战斗的本质,是第4军第11师以第31团正面主攻、第32团夜间西沟迂回、第33团策应、后续部队增援,在沈家岭南部正面突破马家军第82军第190师的山地堡垒阵地;随后在顶部平缓山梁上逐段夺壕、炸碉堡、顶反扑,并沿南北山梁向北推进,最终打穿沈家岭北部防线,打开兰州西关和黄河铁桥方向。不是爬上一座山,而是爬上山后继续在平顶堡垒群里近战,把整条山梁一段一段打穿。
2026-05-14 10:39:29
342
原创 弱者边缘崛起论:楚、秦、罗与个人发展的共同战略逻辑
平原拼规模,山区拼结构。中心拼既有资源,边缘拼组织进化。弱者不能先求胜,必须先求活。活棋靠眼,国家靠根据地,个人靠结构优势。楚国起于荆山,秦国起于西陲,都是弱小势力在平原—山区边缘做活,然后下山扩张。个人发展也是一样:先在山区修炼,形成不可轻易被杀死的结构优势,再下山争天下。
2026-05-14 10:26:58
404
原创 诸葛亮第一次北伐 + 子午谷计划:高上限唯一解
诸葛亮第一次北伐如果要真正成功,不能只是祁山夺陇右,也不能只是魏延子午谷偷长安,而应是“祁山夺陇右 + 子午谷入关中 + 西进封陇山 + 联凉州骑兵 + 关中迁都”的组合战略。为什么不走陈仓道?因为陈仓在韩信时代是奇袭通道,在诸葛亮时代已经是曹魏重点防线,正面攻陈仓只能变成攻坚耗粮。为什么不主走褒斜道?因为褒斜道太正面,出山后就是郿县、五丈原、渭水平原,容易被魏军坚壁拖住,缺少子午谷的突然性和祁山道的侧翼收益。子午谷制造关中震荡祁山主力夺陇右魏延西进封陈仓、陇山赵云、王平稳住街亭马岱联凉州。
2026-05-14 10:10:09
604
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅