- 博客(184)
- 收藏
- 关注
原创 Runtime 上下文管理:计算实例的生命周期、延迟最小化与上下文切换优化
上下文是特定模型或应用会话的逻辑容器,是管理设备资源(HBM、Stream、Kernel 句柄)的边界。一个 Context 实例会独占一组 NPU 硬件资源句柄,包括用于内存管理的特定内存池实例,以及一组专用于该上下文的异步执行流(Streams)。当一个模型加载时,Runtime 会增加对所需的ops-nnops-cv等算子库的内部引用计数。只有当所有绑定到该 Context 的模型实例都被卸载后,这些共享库的引用计数才会归零并被安全卸载。
2026-02-07 12:09:23
390
3
原创 Runtime 错误处理机制深度:异常捕获、容错调度与安全状态恢复
CANN Runtime 在错误处理中扮演着高可靠性保障者的角色。它通过多层次的异常捕获机制,确保了底层硬件故障能够被及时、准确地隔离和报告。同时,通过精细的资源释放和上下文恢复,保障了 NPU 资源的正确释放和状态的稳定,是实现高可靠性 AI 部署的必要条件。
2026-02-07 12:08:47
359
原创 Runtime 内存管理深化:动态内存池、碎片整理与异构内存的统一视图
CANN Runtime 是一个集资源抽象、动态调度、内存生命周期管理和可观测性于一体的复杂执行引擎。其通过** Stream/Event 驱动的异步模型实现了高并发,通过静态规划与惰性碎片整理解决了内存效率问题,并通过底层 PMU 访问**为性能优化提供了数据支撑。Runtime 的健壮性是保障所有高级算子库(如 ops-nn, Catlass)能够高效运行的基石。CANN 组织链接Runtime 仓库链接。
2026-02-07 12:07:53
329
原创 GE 引擎与分布式图的资源绑定:模型并行拓扑感知与通信算子的静态耦合
图引擎(GE)在分布式异构计算环境中,不再仅仅是单卡算子的优化器,更升级为,负责将复杂的并行算法转化为物理集群上的高效执行计划。在大规模模型训练中,GE 通过深度耦合硬件拓扑、精确定位通信瓶颈以及静态编排计算与通信任务,实现了集群资源的统一调度与效能的最大化。
2026-02-07 12:06:14
228
原创 GE 引擎与算子版本控制:确保前向兼容性与图重写策略的稳定性
算子(Operator)的定义是版本感知的,因为上层框架的 API 语义会随时间演进。GE 不仅依据算子名称(如Conv2D)进行匹配,更重要的是匹配其属性集(Attributes)。每个算子实例在其 MetaDef 中携带了其所有配置参数的哈希值或版本标签。当 GE 解析到来自 PyTorch 或 TensorFlow 的图节点时,它会查询已注册的ops-nn或ops-cv实现列表,查找与该属性集版本完全匹配的底层核函数。若发现属性存在冲突,则触发兼容性重写。GE 引擎是异构计算加速的关键智能层。
2026-02-07 12:05:38
389
原创 GE 引擎进阶:依赖图的原子性管理与异构算子协作调度
GE 引擎是 CANN 软件栈的核心编译优化层。它通过版本化的签名管理、启发式的图重写(Predication/Fusion)以及资源约束下的静态规划,有效地将上层框架定义的复杂、动态模型,转化为一个高效、确定性的、适配 NPU 硬件数据流架构的执行蓝图。
2026-02-07 12:03:46
254
原创 ops-cv 归一化算子深度实践:BatchNorm 在多维特征图上的并行化与精度维护
在深度学习的计算图中,BatchNorm(批归一化)是稳定训练和加速收敛的关键算子。仓库中的 BatchNorm 算子不仅仅是数学公式的实现,更是针对异构计算架构特性进行深度优化的结果。其核心挑战在于高效地计算跨批次和跨通道的统计量,并确保在训练和推理模式下的性能与内存效率差异化。
2026-02-07 12:02:44
245
原创 ops-cv 算子库深度解析:面向视觉任务的硬件优化与数据布局(NCHW/NHWC)策略
在 CANN 异构计算架构中,算子库是支撑高性能视觉模型(如 CNNs, Transformers for Vision)执行的关键基础设施。该仓库中的算子被深度优化,旨在最大化 NPU 硬件的并行性和数据流效率。ops-cv 的核心价值在于将复杂的二维滑动窗口和图像变换操作,高效地映射到 Cube Unit 和 Vector Unit 上。
2026-02-07 12:02:05
236
原创 ops-math 算子库的指数与对数运算:精度、查表与自定义算子中的利用
ops-math算子库是 CANN 异构计算栈中提供基础数学计算能力的核心组件。它不依赖于上层复杂的神经网络结构,而是专注于。其核心价值在于通过消除软件抽象开销,保证了计算的原子性和高吞吐量。
2026-02-07 12:01:30
206
原创 ops-math 算子库的精度转换角色:作为混合精度计算链的桥梁与自定义算子的基础接口
ops-math算子库是异构计算栈中提供基础数学计算的原子层。它直接面对硬件 Vector Unit 和 Tensor Core 的能力边界,将数学语义转化为最高效的指令序列。其优化策略决定了上层所有复杂算子(如激活函数、归一化)的性能基线。
2026-02-07 12:00:52
257
原创 CANN ATVOSS 算子库深度解析:基于 Ascend C 模板的 Vector 算子子程序化建模与融合优化机制
ATVOSS 提供了开放的接口规范,支持开发者自定义子程序。由于其基于 C++ 模板,新定义的子程序可以无缝融入现有的融合链条中,并享受到框架提供的流水线管理和内存优化服务。// ATVOSS 子程序模板调用示例:实现向量加法与非线性激活的融合public:// Step 1: 向量加法// 临时缓冲区// Step 2: 激活函数 ReLU,利用 Add 的结果原地计算。
2026-02-06 19:44:22
391
原创 CANN ATVOSS 技术深度解析:基于 Ascend C 模板的高性能 Vector 算子子程序库与融合计算机制
ATVOSS 允许开发者定义符合规范的自定义子程序。由于其基于 C++ 模板,新定义的子程序可以无缝融入现有的融合链条中,并享受到框架提供的流水线管理和内存优化服务。这种开放的扩展性是支撑算法创新的关键。// ATVOSS 提供的标准模板接口(简化)public:// 直接调用底层 Add 原语,实现向量化计算。
2026-02-06 19:43:18
320
原创 CANN metadef 深度解析:计算图元数据定义与异构 IR 规范
异构硬件对访存效率高度敏感。私有格式 NC1HWC0:metadef 为这种格式提供了唯一的标识符和转换逻辑标识。该格式通过将通道维度(C)分块为 C1 和 C0(通常为 16),使得数据能够以符合 NPU Cube Unit 计算模式的方式进入片上缓冲区。TransData 依赖:metadef 定义的格式信息指导 GE 在编译时自动插入格式转换算子(TransData)。
2026-02-06 19:39:52
402
原创 CANN metadef 架构解析:算子原型定义、计算图中间表示与异构内存布局规范
算子原型是描述算子“行为”的核心文档,它在编译阶段就锁定了算子的输入输出约束和配置空间。
2026-02-06 19:38:51
425
原创 CANN metadef 核心解析:计算图原型定义、算子元数据抽象与异构系统互操作机制
内存布局格式直接影响访存效率。基础格式:如 NCHW, NHWC,作为前端框架的输入/输出标准。硬件私有格式:如NC1HWC0。metadef 提供了这些格式的唯一标识符及其维度计算规则,指导 GE 在编译时插入格式转换算子(TransData)以适配 NPU 的 Cube Unit。metadef 仓库通过对计算图、算子、张量及 Tiling 信息的标准化定义,为 CANN 平台构建了稳固的元数据基石。它不仅是图引擎进行融合、内存规划等优化的依据,也是开发者构建自定义算子的协议标准。
2026-02-06 19:38:16
318
原创 极致能效基石:ops-math 数学算子库的逻辑重构与硬件协同优化
ops-math库的核心价值在于其对数学逻辑的原子化抽象。它将神经网络中对计算效率要求极高的激活函数、归一化操作等,转化为可以直接调用底层指令集的数学原语。这种设计哲学有效地消除了高级框架封装所带来的冗余开销,确保了数据在进入计算单元前的路径是最短、最纯净的。消除封装损耗:绕过复杂的软件抽象层,直接在寄存器级别进行数据流转。原子级指令集:通过内置函数直接映射到底层硬件的数学指令,保证了高频调用的性能确定性。通用计算覆盖:提供了从基础线性运算到复杂的超越函数拟合的全面支持。
2026-02-06 19:36:52
402
原创 深度计算编程范式:PyPTO 架构下的张量分块与并行调度优化
PyPTO 不仅仅是一个固定的框架,它允许开发者以模块化的方式自定义复杂算子。开发者可以基于 PyPTO 的内存和同步管理机制,集成自定义的 Ascend C 核心计算逻辑,并将其无缝接入到双缓冲流水线中。
2026-02-06 19:36:02
421
原创 CANN PyPTO 编程范式深度解析:并行张量计算架构、分块调度逻辑与片上内存控制机制
PyPTO 的核心是定义 Tile 的计算行为,并依赖框架将此行为扩展到整个硬件集群。
2026-02-06 19:35:14
353
原创 驱动架构核心:CANN Driver 的资源管理与任务流引擎解析
在异构计算体系中,驱动模块(Driver)是连接上层软件生态与底层物理硬件的唯一通道。CANN Driver 负责对计算处理器(NPU)的物理资源进行精细化管理和抽象,并将复杂的计算请求转化为硬件可识别的任务描述符。它的高效运作是所有上层应用(如算子库、图引擎、Runtime)高性能运行的基石。
2026-02-06 19:26:42
273
原创 Portainer+cpolar 实现 Docker 远程自由管理,不受局域网限制
Portainer 是一款轻量化的 Docker 可视化管理工具,核心功能围绕 Docker 生态展开,可直观查看容器的运行状态、镜像的版本信息,还能对容器进行创建、停止、删除、备份等全生命周期管理,同时支持查看宿主机的系统资源使用情况,让原本需要命令行操作的 Docker 管理变得可视化、简单化。
2026-02-06 17:44:53
15363
11
原创 太香了!群晖NAS FTP外网访问不用再折腾路由器
群晖 NAS FTP 服务是群晖设备自带的文件存储共享功能,能实现大容量文件的存储、多用户权限管理,支持不同终端设备访问,是家庭和中小企业搭建私人文件存储中心的核心功能,可满足文件备份、团队素材共享等多种需求。
2026-02-03 09:16:02
10711
13
原创 《从70%到90%采纳率:专业版如何让AI代码“直接能跑”?》
飞算JavaAI专业版通过智谱4.7+自研Java模型优化,将AI生成代码采纳率从70%提升至90%,显著减少开发者调试成本。其优势体现在:1)生成完整工程代码(含Controller、Service、配置等),而非片段;2)规避Java典型陷阱(如内存泄漏、并发问题),内置防御性编程;3)性价比高(9.9元/月无限Token),较同类产品节省50%以上成本。实测显示,其代码健壮性提升20%,实现“生成即运行”,大幅提升开发效率。
2026-01-31 10:50:24
13806
1
原创 cpolar拯救被困在局域网中的DS File,让NAS文件访问自由到离谱
DS File 作为群晖 NAS 专属的文件管理工具,核心功能围绕文件的全生命周期管理展开,既能对 NAS 内的文件进行分类存储、快速检索,也支持跨设备的文件同步与共享,适配 Android 手机、平板及部分智能家居设备,尤其适合需要高频管理 NAS 文件的职场办公人群、家庭用户,其最大优点在于数据自主掌控,无需依赖第三方网盘,且操作逻辑贴近日常文件整理习惯,上手门槛低。
2026-01-29 22:47:13
13370
17
原创 CentOS搭建私人漫画库:Teemii+cpolar,出门也能刷收藏!
Teemii 是面向漫画爱好者的管理工具,主要功能包括自动抓取网络漫画、离线保存到 CentOS 服务器、按名称和类型智能整理资源,同时支持多端在线阅读,既可以搜索添加喜欢的漫画到书架,也能导入本地已有的漫画文件,形成统一的收藏库。
2026-01-26 18:01:17
10815
17
原创 告别听歌枷锁 R3PLAY + cpolar 实现真正的听歌自由
R3PLAY(又称 R3PLAYX)是一款聚焦核心听歌需求的第三方网易云播放器,覆盖 Windows、macOS、Linux 及 Docker 部署环境,核心功能围绕 “减法设计” 展开 —— 剔除广告、会员推广等冗余模块,仅保留封面展示、歌词同步和基础播放控制,免费播放海量歌曲的特性,尤其适合学生党、职场打工人等追求低成本听歌体验的人群,低配设备也能流畅运行是其突出优点。
2026-01-22 17:22:05
14250
18
原创 一个牛逼的Edge插件,国内直接用Gemini 3,NanoBanana2,GPT 5.2
DeepSider聚合了最新的Gemini 3.0 Pro和Gemini 3.0 Pro Thinking,以及Sora 2,GPT-5,Claude 4.5,Nano Banana 2,Grok4…DeepSider的特点就是专为中文用户设计,没有网络门槛,装上就能随时在侧边栏与AI对话,生成图片或视频。可以看到,Gemini 3.0 Pro正确地理解了用户要求,动画也很流畅,代码中几乎没有Bug存在。以Edge浏览器为例,进入插件安装页面后,点击获取按钮,就可以安装DeepSider插件了。
2025-12-27 20:47:31
5244
原创 昇腾 Triton-Ascend 开源实战:架构解析、环境搭建与配置速查
本文详细解析了Triton-Ascend开源项目,该项目实现了OpenAI Triton编译器在华为昇腾NPU的后端支持。文章从项目架构、核心功能模块(包括昇腾适配、补丁管理、第三方依赖等)展开说明,并提供了完整的开发环境搭建指南,涵盖硬件要求、CANN SDK安装和基础配置验证。通过向量加法示例演示算子开发流程,并深入探讨了针对昇腾910B的矩阵乘法性能优化策略,包括Autotune配置和性能分析工具使用。
2025-12-26 11:31:22
16328
原创 vLLM-Ascend 安装部署与环境配置指南
vLLM-Ascend是专为华为昇腾NPU设计的硬件插件,使vLLM框架能高效运行于昇腾平台。该项目支持主流开源模型,提供与vLLM兼容的API,并针对NPU进行性能优化。文章详细介绍了项目结构、环境部署和配置方法:包括昇腾驱动安装、CANN工具包配置、Python环境搭建,以及通过Docker容器化部署方案。核心代码围绕昇腾后端适配、算子实现和调度接口扩展展开,支持单节点和多节点部署。通过示例脚本验证安装后,用户可利用环境变量和附加配置灵活优化推理性能。该项目为昇腾平台上的大模型推理提供了高效可靠的解决方
2025-12-26 10:38:48
15283
原创 昇腾 Triton-Ascend 开源实战,保姆级环境搭建教程
接下来给大家整理了一些常见的会经常碰到的一些问题,更好的帮助大家进行环境搭建和开发。编译时报错这是因为未找到 CANN 头文件。请检查是否执行,或确认环境变量是否包含 CANN 的 include 目录。运行时出现检查确认 NPU 设备是否可见。如果是 Docker 环境,确认启动参数中包含了等设备映射。相比官方 Triton,Ascend 版本有哪些限制目前部分高级原子操作(Atomic Add on float)和特定的大规模 Reduce 操作可能在性能或支持度上仍在完善中。建议定期git pull。
2025-12-10 20:46:32
17028
1
原创 vLLM Ascend 大语言模型推理项目架构解析与部署
vLLM-Ascend 是 vLLM 项目的一个社区维护的硬件插件,专为华为昇腾(Ascend)NPU 设计,使 vLLM 能够无缝运行在昇腾硬件平台上。该项目遵循 vLLM 社区的硬件插件化设计原则,提供了高性能的大语言模型推理能力。这篇文章的话我主要会带大家来熟悉一下vLLM-Ascend项目的结构,部署和配置。支持主流开源模型,包括 Transformer、MoE、Embedding 和多模态模型提供与 vLLM 兼容的 API 接口针对昇腾 NPU 进行了性能优化。
2025-12-10 20:34:20
12577
原创 数字人又要变天了!十行代码调用电影级3D数字人,RK3566无GPU也能跑
具身智能(Embodied AI)简单理解就是"大模型有了身体"。当你和ChatGPT对话时,如果它不只是冷冰冰的文字回复,而是以一个3D数字人的形象出现,能做出恰当的表情、手势,甚至根据对话内容跳个舞,这种交互体验完全不在一个次元。星云平台正是要做具身智能的基础设施,它提供了一整套SDK,涵盖3D数字人渲染、语音合成、动作驱动、端侧渲染等核心能力。开发者不需要从零搭建复杂的图形引擎或动作捕捉系统,只需调用SDK接口,就能快速构建出能看、能听、能说、能动的具身智能应用。
2025-12-02 13:49:11
8134
原创 喂饭级 Gemini 3.0 使用教程,国内实测可用,看完轻松学会
谷歌Gemini 3.0模型震撼发布,仅用几行提示词就能两分钟内生成完整Web版MacOS系统,支持应用交互和网页浏览。这款全能AI在推理、多模态等基准测试中全面领先,还能一键生成视频编辑器、小游戏等完整应用。推荐使用中文友好的DeepSider浏览器插件(官网deepsider.ai),免费集成Gemini 3.0、GPT-5等数十款顶级AI模型,支持代码生成、文档解析、视频制作等功能,无需特殊网络即可流畅使用。实测3分钟生成1600行无bug代码,是中文用户体验前沿AI技术的便捷工具。
2025-11-28 11:17:46
5075
2
原创 Qoder 降价,立即生效!首购 2 美金/月
Qoder AI编程工具全球上线两月获数十万开发者支持。现推出首购优惠:月费从10美元降至2美元(约14.2元人民币),解锁全部核心功能。主要升级包括:集成四种智能模型分级选择器;支持10万代码文件检索的上下文工程能力;优化token消耗提升性价比。新增Repo Wiki自动生成项目文档和Quest模式异步执行任务功能。CLI工具实现自然语言编程,内存占用降低70%。JetBrains插件即将上线。首购优惠限新用户,续费恢复原价。
2025-11-12 16:09:10
4281
2
原创 LoRA微调新玩法,用CANN的aclnnAddLora算子让大模型适配提速10倍
LoRA推理性能优化实战:华为CANN的acclnAddLora算子解析 摘要:本文深入探讨了LoRA微调技术在大模型推理中的性能瓶颈问题,并介绍了华为CANN框架提供的acclnAddLora融合算子解决方案。该算子通过将基础权重与LoRA权重的矩阵乘法、低秩合并和结果加和三个计算步骤融合为单一操作,显著减少了内存访问和kernel启动开销。实验表明,在LLaMA-7B模型上,该算子实现了10.7倍的加速比,吞吐量提升至97523 tokens/s。
2025-11-08 11:08:34
6770
2
原创 从环境搭建到项目实战:为什么这本《AI+Java编程入门》成了新手的“通关秘籍”?
在Java学习的赛道上,从来不缺教程,但真正能让零基础小白“把代码跑起来” 的书,却寥寥无几。大多数教程要么一上来就讲抽象语法,要么项目复杂到让人望而生畏。而今天推荐的这本由清华大学出版社出版的新书——📘《AI+Java编程入门:让代码跑起来》正在打破这一困局。它不是一本“大而全”的理论手册,而是一本以“动手实践”为核心、融合AI智能工具的现代编程入门指南。
2025-10-31 10:17:06
3023
3
原创 VecDeque的环形缓冲区设计,教你如何从原理到实践的深度探索
Rust的VecDeque采用环形缓冲区设计,通过移动指针而非数据实现高效操作。相比Vec的O(n)删除开销,VecDeque在两端操作(如日志系统维护固定容量记录)时性能可达O(1)。其核心是模运算索引环绕和精妙的内存布局,包括: 两个指针(head/tail)追踪数据边界 插入时自动处理环形索引 动态扩容策略 实际应用(如高频交易系统)显示性能可提升30倍,特别适合需要频繁两端操作的场景。
2025-10-29 10:54:50
5363
28
原创 用Python的Pygal库,生成SVG图表真是一个小小的宝藏库!
Pygal:简洁高效的Python数据可视化库 Pygal是一个专注于SVG图表生成的Python库,以其简洁API和矢量图形特性成为数据可视化利器。相比matplotlib等复杂工具,Pygal优势在于: 极简代码实现专业图表(折线/柱状/饼图等) 矢量SVG输出支持无损缩放 内置交互效果无需额外编码 丰富的样式自定义选项 典型应用场景包括: 快速生成业务报表(5行代码创建折线图) 制作响应式。
2025-10-23 20:05:00
3581
3
原创 谷歌云+Apache Airflow,数据处理自动化的强力武器
Apache Airflow 是一个强大的工作流管理平台,特别适合在谷歌云上实现数据处理自动化。本文介绍了如何在Cloud Composer上搭建Airflow环境,并通过示例展示了如何创建第一个数据处理DAG(有向无环图)。关键点包括:使用GCSToBigQueryOperator将GCS数据导入BigQuery,用BigQueryExecuteQueryOperator进行数据转换,以及设置任务依赖关系。文章还列举了常用的Airflow操作符,如文件操作和转换等。通过Airflow,开发者可以轻松实现复
2025-10-03 16:40:58
4649
3
原创 用Python+smtplib实现邮件自动发送,日常工作效率提升300%
Python smtplib邮件自动发送指南 摘要:Python的smtplib库可轻松实现邮件自动发送,解决重复发送邮件的痛点。文章详细介绍了如何使用smtplib发送纯文本、HTML格式邮件,以及添加附件和图片的方法。关键点包括:SMTP服务器连接方式(普通/SSL加密)、授权码获取、HTML格式美化、内嵌图片实现、附件添加等。通过代码示例展示了完整的邮件发送流程,包括多收件人处理、抄送/密送设置等实用技巧。这些自动化方法可大幅提升工作效率,特别适合定期发送报告、通知等场景。
2025-09-10 19:31:50
3900
3
原创 Python实战教程:PDF文档自动化编辑与图表绘制全攻略
本文介绍了使用Python自动化处理PDF文档的技巧,重点讲解了PyPDF2和matplotlib库的应用。主要内容包括:1) 使用PyPDF2读取PDF文本和页面信息;2) 合并多个PDF文件或拆分大文件;3) 利用matplotlib绘制数据图表并保存为PDF;4) 将生成的图表嵌入现有PDF文档;5) 处理中文路径和字体显示等实用技巧。这些方法能显著提升办公效率,将繁琐的手动操作转化为自动化流程,适用于报告生成、文档处理等多种场景。通过Python实现PDF自动化,可以节省时间、减少错误,使文档处理工
2025-08-13 16:21:11
3478
2
Java开发面试-RabbitMQ专区
2023-10-28
Java开发面试-MongoDB专区
2023-10-28
Java开发面试-nacos专区.md
2023-10-28
Java开发面试-Redis专区
2023-10-28
Java开发面试-群面专区
2023-10-28
CentOS 7安装FTP服务器.md
2023-10-30
「文件夹名称筛选工具 - 简单实用的Java小工具」
2024-01-24
Linux操作系统第二次测试题.docx
2023-11-20
Linux操作系统第三次测试题.docx
2023-11-20
Linux操作系统课程第一次测试题.docx
2023-11-20
Linux操作系统基础第三部分.pptx
2023-11-20
LInux操作系统基础-第二部分.pptx
2023-11-20
软件项目管理-项目质量管理
2023-11-17
软件工程项目管理结课大作业
2023-11-16
项目管理基础.zip
2023-11-16
项目管理-项目进度管理作业
2023-11-17
项目管理-项目范围管理作业
2023-11-17
项目管理-项目成本管理
2023-11-17
scrum开发模式与禅道管理系统.zip
2023-11-16
CentOS 7 更换yum源.zip
2023-10-30
CentOS 7 中完成普通用户向root用户借权的设置.zip
2023-10-30
CentOS 7 中普通用户切换root用户.zip
2023-10-30
CentOS 7 图形化界面与命令行界面互换.zip
2023-10-30
完成XShell和CentOS的连接.zip
2023-10-30
CentOS 7安装DNS服务器.md
2023-10-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅