自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(151)
  • 收藏
  • 关注

原创 CANN ops-nn 实战指南:异构计算场景中神经网络算子的调用、调优与扩展技巧

创建名为 FastRMSNorm 的 NN 算子 asc-devkit create-op --name FastRMSNorm --type nnops-nn作为 CANN 架构的神经网络计算基石,为开发者提供了一套完整的高性能算子解决方案。优先使用融合算子:如;启用混合精度:训练用 BF16/FP16 + FP32 累加,推理用 INT8(若支持);利用图自动优化:通过无感加速;自定义瓶颈算子:对未覆盖的算子,使用asc-devkit快速开发;持续 Profiling:使用。

2026-02-07 17:33:57 223 3

原创 CANN ops-cv 深度解析:异构计算中计算机视觉算子库的高性能实现逻辑

ops-cv代表了计算机视觉底层加速从“通用可用”走向“场景极致”的重要演进。它通过缓存友好设计、分块策略、深度算子融合与向量化实现,在异构计算架构下释放了 CV 算子的最大性能潜力。对于致力于构建高性能视觉系统的团队而言,深入理解ops-cv的实现逻辑,不仅是性能优化的关键,更是构建下一代 AI 视觉基础设施的核心能力。cann组织链接ops-cv仓库链接。

2026-02-07 17:30:21 245

原创 CANN ops-nn 深度解析:异构计算中神经网络算子库的高性能计算实现逻辑

并非简单的算子集合,而是一套面向真实部署场景的高性能神经网络计算基座。它通过内存优化、Kernel 融合、类型泛化、生态协同等技术,将通用神经网络操作转化为硬件友好的高效执行单元。在 AI 模型日益复杂、硬件架构持续演进的今天,ops-nn所体现的“性能优先、可组合、可扩展”设计理念,正成为构建下一代 AI 基础设施的关键支柱。cann组织链接ops-nn仓库链接。

2026-02-07 17:28:54 205

原创 CANN catlas 深度解析:异构计算中算子数据库的高性能算子封装与分类逻辑

在现代人工智能系统中,算子(Operator)是连接算法逻辑与底层硬件执行的基本单元。随着模型结构日益复杂、硬件架构持续演进,如何高效组织、查找、调用和扩展成百上千个高性能算子,已成为构建可扩展 AI 软件栈的核心挑战。CANN 社区推出的项目,正是为解决这一问题而设计的——它并非传统意义上的“数学库”,而是一个,为 ops-nn、ops-transformer、ops-cv 等专用算子库提供统一的注册、查询、调度与元信息管理能力。

2026-02-07 17:27:23 288

原创 CANN ge 深度解析:异构计算中面向图的编译器与执行器的模型优化实现逻辑

CANN ge 不仅是一个图编译器,更是一个面向异构计算的模型优化操作系统。它通过统一 IR、深度优化、硬件感知调度与模型下沉,将高层模型转化为极致高效的执行方案。在大模型与边缘 AI 并行发展的时代,ge 所代表的“编译驱动性能”范式,将成为 AI 软件栈不可或缺的核心组件。对于希望突破性能瓶颈、实现高效部署的开发者而言,深入理解 ge 的设计逻辑,是迈向系统级优化的关键一步。未来,随着稀疏训练、神经符号系统等新方向兴起,ge 将持续扩展其 IR 表达能力与优化策略,推动 AI 编译技术迈向新高度。

2026-02-07 17:25:55 200

原创 CANN hccl 深度解析:异构计算集群通信库的跨节点通信与资源管控实现逻辑

hccl 不仅是一个通信库,更是分布式 AI 系统的“神经中枢”。它通过拓扑感知路由、零拷贝传输、动态带宽调度等创新机制,在跨节点通信与资源管控两大维度上实现了性能与可靠性的双重飞跃。在 AI 模型规模持续扩大的今天,这种“极致通信效率 + 智能资源管控”的设计理念,不仅是技术进步的体现,更是构建大规模、高可用 AI 系统的基石。对于每一位致力于分布式 AI 系统优化的工程师而言,深入理解 hccl 的实现逻辑,就是掌握了驾驭未来 AI 计算集群的核心能力。cann组织链接hccl仓库链接。

2026-02-07 17:24:48 122

原创 CANN runtime 性能优化:异构计算下运行时组件的效率提升与资源利用策略

CANNruntime作为异构计算架构下的核心调度引擎,通过精细化的内存管理、多流并发、任务调度与维测能力,为上层 AI 应用提供了高效、稳定、可扩展的执行环境。它不仅是算子性能的“兑现者”,更是系统级优化的“协调者”。未来,随着多芯片互联、存算一体、近数据计算等新架构的发展,runtime将进一步演进,支持跨设备任务迁移、异构内存统一寻址、自适应调度等高级特性,为下一代 AI 基础设施提供更强支撑。对于致力于构建高性能 AI 系统的团队而言,深入理解并善用runtime。

2026-02-07 17:21:21 273

原创 CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径

不仅是一个执行引擎,更是一个面向生产环境的 AI 运行时操作系统。它通过流式调度、内存池化、设备抽象、功能集成等技术,构建了一条从算法开发到工业部署的高效通路。在大模型、多模态、边缘智能等趋势下,运行时系统的复杂度将持续上升,而所体现的“模块化、可扩展、可观测”设计理念,无疑为未来 AI 基础设施提供了重要参考。cann组织链接runtime仓库链接。

2026-02-07 17:19:31 194

原创 CANN runtime 实战指南:异构计算场景中运行时组件的部署、调优与扩展技巧

若已通过asc-devkit开发了新算子(如MyCustomOp# 注册自定义算子(需提供 .so 路径)# 调用该机制极大提升了 runtime 的可扩展性。自定义内存分配器;插入自定义调度策略;集成第三方通信库。示例:实现自定义内存分配器public:// 调用自研内存池// 注册public :// 调用自研内存池 return my_pool_alloc(size);} };

2026-02-07 17:18:00 147

原创 CANN runtime 核心设计:支撑 AI 全流程计算的运行时资源调度与低延迟实践

CANN runtime 并非一个简单的“执行器”,而是一个面向 AI 全生命周期的资源操作系统。它通过精细化的资源抽象、高效的内存管理、灵活的异步调度与强大的维测能力,为上层应用提供了稳定、高效、可预测的执行环境。在大模型时代,当算法创新逐渐趋同,运行时效率将成为产品落地的核心竞争力。深入理解并善用 CANN runtime 的设计精髓,将是每一位 AI 系统工程师的必修课。未来,随着稀疏计算、存算一体、光计算等新范式兴起,runtime 将持续演进其抽象能力,成为连接算法与下一代硬件的通用桥梁。

2026-02-07 17:15:55 347

原创 CANN算子库实践指南:基于ops-math构建自定义AI计算组件的高效开发

本文详细介绍了基于CANN的ops-math算子库进行自定义AI计算组件开发的完整流程。首先解析了ops-math的核心架构与组件设计,随后提供了从环境配置、自定义融合算子(如SwishLayerNorm)实现、实用工具函数到完整测试验证的实战代码示例。文章最后总结了模块化设计、数值稳定性等最佳实践,为开发者基于此高性能数学基础库构建和优化AI计算组件提供了实用指南。

2026-02-06 22:10:05 284 1

原创 CANN算子开发:ops-nn神经网络算子库的技术解析与实战应用

本文深入解析了CANN架构下的神经网络算子库ops-nn,阐述了其在CANN生态中的核心定位与四大类算子覆盖范围,详细介绍了开发环境的搭建步骤。通过完整的ReLU算子调用代码实例,展示了从算子初始化、数据准备、执行计算到结果验证的全流程。文章进一步探讨了自定义算子的二次开发原则与生态价值,为基于CANN架构的神经网络开发提供高效稳定的计算基础。

2026-02-06 22:08:27 256

原创 CANN神经网络:深度解读ops-nn中Reduce类算子的内存优化策略与代码实现

本文深入解析了CANN生态中ops-nn库对Reduce类算子(如ReduceSum)的高性能优化策略。针对高维张量规约的内存访问瓶颈,重点介绍了轴重排、分块规约、共享内存归约树及多阶段归约等核心优化技术。通过剖析GPU Kernel的完整实现代码,展示了如何将规约操作转化为内存连续访问的并行计算,显著提升带宽利用率与执行效率,为AI基础算子的底层优化提供了宝贵实践参考。

2026-02-06 22:06:10 323 2

原创 CANN异构计算:利用ops-nn仓库实现自定义算子的高性能并行开发

本文介绍了如何使用CANN生态中的ops-nn库进行跨设备异构计算开发。通过统一张量接口与多后端调度机制,ops-nn简化了CPU、GPU、NPU间的协同编程。文章以SparseDenseMatmul算子为例,详细展示了如何拆分稀疏索引(CPU)与稠密计算(GPU)任务,利用异步内存拷贝与流调度,在减少数据迁移的同时显著提升性能,为高效异构AI算子开发提供了实用范式。

2026-02-06 22:03:33 273

原创 CANN开源项目实战指南:使用oam-tools构建自动化故障诊断与运维可观测性体系

本文基于CANN开源仓库,介绍如何利用oam-tools为CANN应用构建云原生运维体系。通过定义标准化OAM组件与故障诊断Trait,实现NPU状态监控、自动化日志分析与健康检查,解决异构环境下的运维挑战,提升CANN集群的可观测性与故障处理效率。

2026-02-06 22:01:46 478

原创 CANN算子进阶:基于ops-nn仓库深度解析aclnn接口的两阶段调用机制

本文解析了CANN生态中ops-nn库采用的aclnn两阶段调用机制。通过将算子执行拆分为资源准备与异步提交两阶段,解决了同步模型的阻塞与资源竞争问题,显著提升AI系统吞吐与响应性,实现了计算与调度的解耦。

2026-02-06 21:58:14 242

原创 CANN开源项目深度实践:基于amct-toolkit实现自动化模型量化与精度保障策略

本文探讨了如何使用CANN的amct-toolkit实现模型自动量化,并详述了从校准、评估到混合精度与量化感知训练的完整精度保障策略。

2026-02-06 21:56:21 503

原创 CANN架构实践:基于graph-samples仓库的动态Graph构建与高性能执行解析

本文以CANN的graph-samples仓库为例,深入解析了如何在CANN架构下动态构建计算图,并通过Graph API实现编译、加载和执行的全流程。重点演示了通过aclgrph接口构建向量加法计算图的完整代码示例,剖析了动态图构建相较于单算子模式在性能优化和灵活性上的优势。

2026-02-06 21:52:07 572

原创 CANN架构核心支撑:GE图编译器的技术原理与实战应用解析

GE是CANN架构的核心图编译器与执行器,负责AI模型的解析、优化、编译与调度,能显著提升模型执行效率并降低内存占用。

2026-02-06 21:49:12 554

原创 CANN ops-math 应用指南:从零搭建高效、可复用的自定义 AI 计算组件

ops-math是CANN中的核心数学算子库,为AI计算提供高性能、标准化的基础数学运算支持。

2026-02-06 21:44:56 850

原创 告别杂乱链接!Sun-Panel 让 NAS 管理变简单,cpolar 解锁远程访问

本文介绍如何在群晖NAS中使用Docker部署Sun-Panel导航页,通过cpolar内网穿透生成固定公网地址,实现远程访问。只需简单配置,即可随时随地将NAS服务整理并安全映射到公网,突破局域网限制。

2026-02-05 19:59:08 10669 61

原创 【C标准库】一文吃透 C 语言 assert 断言

本文详解 C 语言 assert 断言,涵盖用法、工作机制、适用场景,辨析与 if 的区别,强调使用禁忌并给出自定义方法。

2026-01-29 22:40:26 9396 11

原创 Oracle到KingbaseES数据库迁移:全流程实战指南与避坑总结

本文系统介绍Oracle迁移至KingbaseES的全流程,涵盖迁移评估、环境准备、KDTS/KFS工具使用、数据迁移、应用适配及测试调优,并提供常见问题解决方案与避坑指南,助力实现平稳高效的国产化数据库迁移。

2026-01-21 12:31:06 15048 10

原创 解锁电子书自由:Calibre-Web+cpolar,走到哪读到哪

本文详细介绍了在飞牛OS上部署Calibre-Web搭建个人电子书库,并通过cpolar内网穿透实现公网访问。从Docker安装、配置数据库、上传书籍到设置固定二级子域名,一步步打造可随时随地访问的私人在线图书馆,让电子书管理变得便捷高效。

2026-01-19 19:38:17 11704 70

原创 2026国产时序数据库新范式:融合架构崛起与专业赛道分化

2026年国产时序数据库呈现专业深耕与融合多模双轨发展。金仓数据库凭借内核级多模态融合架构,为需时序与业务数据深度整合的场景提供了独特的企业级解决方案。

2026-01-18 10:58:01 10836 14

原创 【C标准库】C语言随机数生成函数:详解rand()与srand()函数

本文主要讲解了rand函数和srand函数。

2026-01-17 12:58:26 6262 51

原创 金仓数据库:以 “多模融合” 重塑国产文档数据库新标杆

金仓数据库MongoDB兼容版基于企业级多模融合架构,实现与MongoDB协议级高度兼容,性能对标行业领先产品。支持平滑迁移与高可用部署,已在政务、金融等多个关键领域成功应用,为国产化替代提供安全可控、高性能的数据底座解决方案。

2026-01-16 20:50:45 10505 14

原创 【顺序表习题|图解|双指针】合并两个有序数组 + 训练计划 I

本文章主要通过双指针解法,详解《合并两个有序数组》《训练计划 I》两道 LeetCode 题目。

2026-01-14 23:28:39 3900 27

原创 用 Leanote 管理知识还不够?加上cpolar突破局域网限制才是真高效

本文详细介绍了如何在CentOS 7系统上使用Docker部署Leanote蚂蚁笔记,并结合cpolar内网穿透工具实现公网远程访问,打造个人在线知识管理平台和博客系统。

2026-01-13 15:23:16 9844 54

原创 【顺序表习题|图解|双指针】移除元素 + 删除有序数组中的重复项

本文章主要通过双指针解法,详解《移除元素》《删除有序数组中的重复项》两道 LeetCode 题目。

2026-01-13 13:31:43 3061 47

原创 【C++藏宝阁】C++入门:命名空间(namespace)详解

本文聚焦C++命名空间(namespace),详解其定义、三种核心使用方式与嵌套、分散定义等特性,剖析其 “独立作用域” 的本质,点明解决命名冲突、模块化组织代码等核心价值,同时给出定义与使用中的避坑要点。

2026-01-10 20:58:16 6759 81

原创 【数据结构手札】顺序表实战指南(五):查找 | 任意位置增删

本文重点讲解顺序表的查找某个值的下标、在下标为 pos 位置插入 x、删除下标为 pos 位置的数据三大基础操作。

2026-01-10 20:50:22 5898 54

原创 【数据结构手札】顺序表实战指南(四):头插 | 头删

本文重点讲解顺序表的头插、头删两大基础操作,深入剖析了数据挪动的核心思路与代码实现。

2026-01-09 23:47:01 5412 21

原创 【数据结构手札】顺序表实战指南(三):扩容 | 尾插 | 尾删

本文重点讲解顺序表的扩容、尾插、尾删三大基础操作。

2026-01-09 23:41:48 6191 33

原创 【数据结构手札】顺序表实战指南(二):结构体构建 | 初始化 | 打印 | 销毁

本文重点讲解动态顺序表的结构体构建,并实现了初始化、打印、销*三大基础操作。

2026-01-08 23:39:53 6416 68

原创 服务器监控不用守机房!cpolar有远程掌握状态的实用技巧

通过Prometheus+node_exporter+Alertmanager+cpolar搭建服务器监控告警系统,实现内网穿透,随时随地查看状态并接收邮件告警。

2026-01-08 23:35:14 13263 59

原创 【数据结构手札】顺序表实战指南(一):线性表定义 | 顺序表定义

本文介绍线性表定义与存储结构,详解静态、动态顺序表的结构、优缺点及适用场景,为后续顺序表实战学习奠定理论基础。

2026-01-07 22:01:21 8948 17

原创 【数据结构手札】空间复杂度详解:概念 | 习题

本文系统解析算法空间复杂度,详解其核心概念与计算方法。通过冒泡排序、斐波那契数列和阶乘递归三大实例,生动展示O(1)、O(N)等常见空间复杂度场景,帮助读者掌握算法内存占用分析技巧,建立完整的算法效率评估体系。

2026-01-06 21:21:25 6442 52

原创 【数据结构手札】时间复杂度详解:概念 | 大O渐进表示法 | 习题

本文系统讲解了算法时间复杂度的核心概念,详细剖析了大O渐进表示法的推导法则,并通过8个经典实例由浅入深地展示了常见复杂度的分析与计算方法,旨在帮助读者建立算法效率分析的完整框架。

2026-01-05 17:07:11 5590 45

原创 被局域网困住的开发效率?IT-Tools+cpolar 解锁全场景工作自由

IT-Tools 的实用功能搭配 cpolar 的网络穿透能力,打破了局域网的束缚,让开发工具真正服务于灵活办公。

2026-01-05 16:39:47 14969 71

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除