- 博客(146)
- 收藏
- 关注
原创 【C标准库】C语言memset函数详解:从原理到实战避坑
本文详解C语言memset函数的原理、基础用法,重点梳理整型初始化等常见误区,助力高效避坑、规范使用。
2026-03-21 00:42:05
798
69
原创 【C标准库】理解C语言中的abs函数:计算整数的绝对值
C语言abs函数用于计算整数绝对值,需包含stdlib.h头文件,注意仅适用于整型数据且需防范INT_MIN的溢出风险。
2026-03-20 16:30:04
1222
63
原创 数据库 SQL 防火墙:内核级防护,筑牢 SQL 注入安全防线
本文介绍金仓数据库KingbaseES内置的SQL防火墙,从内核层拦截恶意SQL注入,提供学习、警告、报错三种防护模式。经实测可精准拦截非法SQL,性能损耗低、配置简便,已广泛应用于党政、能源等高安全需求行业,实现数据库主动安全防御。
2026-03-18 20:31:17
11023
47
原创 直击复杂 SQL 瓶颈:基于代价的连接条件下推技术落地
本文探讨了数据库复杂查询中“过滤迟到”的性能瓶颈,提出了一种代价驱动的连接条件下推优化方案。该方案通过语义等价性保障与成本评估相结合,让过滤条件在最适当时机介入,在典型场景中实现数千倍的性能提升,代表了优化器从规则驱动向代价驱动的演进方向。
2026-03-14 21:04:37
12120
49
原创 CANN pypto 的设备放置策略与跨设备调度抽象
在大模型训练与推理日益依赖多设备协同的背景下,如何高效地将计算任务分配到不同硬件单元,并管理它们之间的数据流动,已成为 AI 框架的核心挑战。CANN 生态中的PyPTO(Parallel Tensor/Tile Operation)项目,作为一套面向 Tile 级并行的 Python 编程范式,不仅提供了类 PyTorch 的高层表达能力,更在底层构建了一套精细的设备放置(Device Placement)与跨设备调度(Cross-Device Scheduling)抽象机制。CANN PyPTO 通过。
2026-02-07 17:33:57
371
15
原创 CANN pypto 的自动微分支持与梯度图生成机制
在现代 AI 开发生态中,自动微分(Automatic Differentiation, AD)是训练神经网络的基石。CANN 开源项目中的pypto(Parallel Tensor/Tile Operation in Python)作为一套面向 tile 级并行计算的 Python 编程接口,不仅提供了高性能算子开发能力,更在 v1.5.0 版本(截至 2026 年初)中正式引入了完整的自动微分支持,使得用户能够以接近原生 PyTorch 的体验编写可微分的自定义算子,并无缝集成到训练流程中。
2026-02-07 17:30:21
371
5
原创 CANN ops-nn 深度解析:异构计算中神经网络算子库的高性能计算实现逻辑
并非简单的算子集合,而是一套面向真实部署场景的高性能神经网络计算基座。它通过内存优化、Kernel 融合、类型泛化、生态协同等技术,将通用神经网络操作转化为硬件友好的高效执行单元。在 AI 模型日益复杂、硬件架构持续演进的今天,ops-nn所体现的“性能优先、可组合、可扩展”设计理念,正成为构建下一代 AI 基础设施的关键支柱。cann组织链接ops-nn仓库链接。
2026-02-07 17:28:54
310
原创 CANN pypto 对高阶函数与控制流的表达能力分析
在 AI 算子开发范式从“手写 Kernel”向“高级语言描述 + 自动编译”演进的背景下,CANN 生态推出的PyPTO(Parallel Tensor/Tile Operation)编程框架,代表了一种兼顾表达力与性能可控性的新型开发模型。PyPTO 以 Python 为宿主语言,通过装饰器、上下文管理器与自定义 DSL(领域特定语言),将 PTO(Parallel Tile Operation)指令集的能力暴露给开发者,使其能以接近 NumPy 的语法编写高性能 NPU 算子。
2026-02-07 17:27:23
477
2
原创 CANN ge 深度解析:异构计算中面向图的编译器与执行器的模型优化实现逻辑
CANN ge 不仅是一个图编译器,更是一个面向异构计算的模型优化操作系统。它通过统一 IR、深度优化、硬件感知调度与模型下沉,将高层模型转化为极致高效的执行方案。在大模型与边缘 AI 并行发展的时代,ge 所代表的“编译驱动性能”范式,将成为 AI 软件栈不可或缺的核心组件。对于希望突破性能瓶颈、实现高效部署的开发者而言,深入理解 ge 的设计逻辑,是迈向系统级优化的关键一步。未来,随着稀疏训练、神经符号系统等新方向兴起,ge 将持续扩展其 IR 表达能力与优化策略,推动 AI 编译技术迈向新高度。
2026-02-07 17:25:55
424
2
原创 CANN hccl 深度解析:异构计算集群通信库的跨节点通信与资源管控实现逻辑
hccl 不仅是一个通信库,更是分布式 AI 系统的“神经中枢”。它通过拓扑感知路由、零拷贝传输、动态带宽调度等创新机制,在跨节点通信与资源管控两大维度上实现了性能与可靠性的双重飞跃。在 AI 模型规模持续扩大的今天,这种“极致通信效率 + 智能资源管控”的设计理念,不仅是技术进步的体现,更是构建大规模、高可用 AI 系统的基石。对于每一位致力于分布式 AI 系统优化的工程师而言,深入理解 hccl 的实现逻辑,就是掌握了驾驭未来 AI 计算集群的核心能力。cann组织链接hccl仓库链接。
2026-02-07 17:24:48
269
原创 CANN pypto 与 PyTorch FX Tracer 的集成架构
在 CANN(Compute Architecture for Neural Networks)生态中,pypto(Python Parallel Tensor/Tile Operation)项目扮演着至关重要的桥梁角色。它旨在将 CANN 高性能的 PTO(Parallel Tile Operation)编程模型无缝引入到 Python 生态,特别是与主流深度学习框架PyTorch进行深度集成。
2026-02-07 17:21:21
442
4
原创 CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
不仅是一个执行引擎,更是一个面向生产环境的 AI 运行时操作系统。它通过流式调度、内存池化、设备抽象、功能集成等技术,构建了一条从算法开发到工业部署的高效通路。在大模型、多模态、边缘智能等趋势下,运行时系统的复杂度将持续上升,而所体现的“模块化、可扩展、可观测”设计理念,无疑为未来 AI 基础设施提供了重要参考。cann组织链接runtime仓库链接。
2026-02-07 17:19:31
277
原创 CANN ops-transformer 中注意力机制的 Tile 化执行模型
在大语言模型(LLM)与多模态 Transformer 架构中,自注意力机制(Self-Attention)是计算密集度最高、内存带宽压力最大的核心组件。CANN(Compute Architecture for Neural Networks)开源项目中的仓库()针对这一挑战,提出了一套高度优化的Tile 化执行模型,将传统 O(N²) 复杂度的注意力计算分解为可并行、可流水、可融合的 Tile 级操作序列。
2026-02-07 17:18:00
319
12
原创 CANN pypto 编程范式的 IR 构建与图表示机制
在 AI 编译器与高性能算子开发领域,如何在保持编程灵活性的同时实现底层硬件的极致优化,始终是核心挑战。CANN(Compute Architecture for Neural Networks)开源生态推出的PyPTO(Parallel Tensor/Tile Operation)编程范式,通过融合 Python 的易用性与 Tile 级控制能力,为开发者提供了一条从算法描述到高效执行的完整路径。其核心在于一套自定义的中间表示。
2026-02-07 17:15:55
453
1
原创 CANN atvoss 对 H.264/H.265 解码的硬件加速路径
在视频处理与空间智能应用日益普及的今天,高效视频解码能力已成为 AI 系统的关键基础设施。CANN(Compute Architecture for Neural Networks)生态中的atvoss(Ascend C Templates for Vector Operator Subroutines)项目,作为一套基于 Ascend C 开发的高性能 Vector 算子模板库,不仅服务于通用神经网络计算,还深度参与了视频编解码等多媒体任务的硬件加速。
2026-02-06 22:10:05
427
1
原创 CANN算子开发:ops-nn神经网络算子库的技术解析与实战应用
本文深入解析了CANN架构下的神经网络算子库ops-nn,阐述了其在CANN生态中的核心定位与四大类算子覆盖范围,详细介绍了开发环境的搭建步骤。通过完整的ReLU算子调用代码实例,展示了从算子初始化、数据准备、执行计算到结果验证的全流程。文章进一步探讨了自定义算子的二次开发原则与生态价值,为基于CANN架构的神经网络开发提供高效稳定的计算基础。
2026-02-06 22:08:27
306
原创 CANN pto-isa 与物理 ISA 的 lowering 映射规则
在 CANN(Compute Architecture for Neural Networks)开源生态中,pto-isa(Parallel Tile Operation Instruction Set Architecture)项目定义了一套面向tile 级操作的虚拟指令集。其核心目标是解耦上层算子开发与底层硬件演进。
2026-02-06 22:06:10
419
2
原创 CANN pto-isa 的寄存器分配与内存访问模型
在 CANN(Compute Architecture for Neural Networks)高性能计算生态中,pto-isa(Parallel Tile Operation Instruction Set Architecture)项目定义了一套面向Tile(瓦片)的虚拟指令集架构。其核心目标是为上层框架和算子开发者提供一个硬件无关、可移植、且能保留底层性能调优空间的编程抽象。要实现这一目标,pto-isa 必须在虚拟 ISA 层面精确定义其寄存器模型和内存访问语义。
2026-02-06 22:03:33
375
2
原创 CANN atvoss 与媒体驱动层的 DMA 缓冲区管理机制
在 CANN(Compute Architecture for Neural Networks)开源生态中,atvoss(Ascend C Templates for Vector Operator Subroutines)项目虽以“Vector 算子模板库”为名,但其底层实现深度依赖于 CANN 媒体驱动层所提供的高效数据通路能力——尤其是DMA(Direct Memory Access)缓冲区管理机制。这一机制不仅决定了向量类融合算子的数据吞吐效率,更直接影响端到端 AI 推理流水线的延迟与稳定性。
2026-02-06 22:01:46
662
1
原创 CANN pto-isa 的扩展机制:支持自定义指令类型
在异构计算日益成为 AI 基础设施核心的今天,如何在不同代际、不同架构的硬件上实现高效且可移植的算子开发,已成为开发者面临的关键挑战。CANN(Compute Architecture for Neural Networks)生态中的pto-isa项目正是为解决这一问题而生。pto-isa(Parallel Tile Operation Instruction Set Architecture)是一套面向 Tile 级操作的虚拟指令集架构。
2026-02-06 21:58:14
426
1
原创 CANN atvoss 的色彩空间转换与缩放滤波器实现
在计算机视觉与多媒体处理流水线中,色彩空间转换(Color Space Conversion, CSC)和图像缩放(Image Resizing)是两个基础且高频的操作。它们通常位于数据预处理或后处理阶段,对整体推理吞吐和延迟具有显著影响。CANN 生态中的atvoss。
2026-02-06 21:56:21
747
原创 CANN pto-isa 对向量、矩阵与张量操作的统一抽象
在 AI 编译器与高性能算子开发领域,硬件指令集的碎片化一直是跨代际迁移与性能可移植性的主要障碍。不同代际的 AI 加速器在计算单元、内存层次、流水线结构上存在显著差异,导致底层 Kernel 难以复用。为解决这一问题,CANN(Compute Architecture for Neural Networks)生态提出了——一套面向Tile(分块)的虚拟指令集架构。通过将向量、矩阵与张量操作统一抽象为Tile 级原语,PTO ISA 在提升编程抽象层级的同时,保留了对硬件流水线的精细控制能力。
2026-02-06 21:52:07
738
原创 CANN pto-isa 虚拟指令集架构的 Tile 操作语义定义
在面向 AI 加速器的底层编程模型中,如何在硬件演进与软件可移植性之间取得平衡,是架构设计的核心挑战。CANN(Compute Architecture for Neural Networks)开源项目推出的pto-isa(Parallel Tile Operation Instruction Set Architecture)提供了一种创新解法:通过定义一套虚拟的、面向 Tile 的指令集,在保留底层硬件性能调优空间的同时,实现跨代际硬件的代码复用与迁移。在 pto-isa 中,
2026-02-06 21:49:12
648
2
原创 CANN atvoss 的低延迟视频流处理架构设计
在现代人工智能系统中,实时视频处理已成为智能安防、工业质检、自动驾驶和远程医疗等关键场景的核心需求。这类应用对端到端延迟极为敏感——从摄像头捕获帧到完成推理并输出结果,整个链路通常需控制在数十毫秒以内。为支撑此类高时效性任务,CANN 开源生态推出了atvoss(Ascend C Templates for Vector Operator Subroutines)项目,其核心目标是为视频流中的Vector 类融合算子提供极简、高效、可扩展的编程范式,并在此基础上构建一套低延迟视频处理架构。
2026-02-06 21:44:56
982
原创 【C标准库】一文吃透 C 语言 assert 断言
本文详解 C 语言 assert 断言,涵盖用法、工作机制、适用场景,辨析与 if 的区别,强调使用禁忌并给出自定义方法。
2026-01-29 22:40:26
9917
11
原创 Oracle到KingbaseES数据库迁移:全流程实战指南与避坑总结
本文系统介绍Oracle迁移至KingbaseES的全流程,涵盖迁移评估、环境准备、KDTS/KFS工具使用、数据迁移、应用适配及测试调优,并提供常见问题解决方案与避坑指南,助力实现平稳高效的国产化数据库迁移。
2026-01-21 12:31:06
15169
10
原创 2026国产时序数据库新范式:融合架构崛起与专业赛道分化
2026年国产时序数据库呈现专业深耕与融合多模双轨发展。金仓数据库凭借内核级多模态融合架构,为需时序与业务数据深度整合的场景提供了独特的企业级解决方案。
2026-01-18 10:58:01
10868
14
原创 金仓数据库:以 “多模融合” 重塑国产文档数据库新标杆
金仓数据库MongoDB兼容版基于企业级多模融合架构,实现与MongoDB协议级高度兼容,性能对标行业领先产品。支持平滑迁移与高可用部署,已在政务、金融等多个关键领域成功应用,为国产化替代提供安全可控、高性能的数据底座解决方案。
2026-01-16 20:50:45
10552
14
原创 【顺序表习题|图解|双指针】合并两个有序数组 + 训练计划 I
本文章主要通过双指针解法,详解《合并两个有序数组》《训练计划 I》两道 LeetCode 题目。
2026-01-14 23:28:39
3917
27
原创 【顺序表习题|图解|双指针】移除元素 + 删除有序数组中的重复项
本文章主要通过双指针解法,详解《移除元素》《删除有序数组中的重复项》两道 LeetCode 题目。
2026-01-13 13:31:43
3072
48
原创 【C++藏宝阁】C++入门:命名空间(namespace)详解
本文聚焦C++命名空间(namespace),详解其定义、三种核心使用方式与嵌套、分散定义等特性,剖析其 “独立作用域” 的本质,点明解决命名冲突、模块化组织代码等核心价值,同时给出定义与使用中的避坑要点。
2026-01-10 20:58:16
6984
81
原创 【数据结构手札】顺序表实战指南(五):查找 | 任意位置增删
本文重点讲解顺序表的查找某个值的下标、在下标为 pos 位置插入 x、删除下标为 pos 位置的数据三大基础操作。
2026-01-10 20:50:22
5953
54
原创 【数据结构手札】顺序表实战指南(四):头插 | 头删
本文重点讲解顺序表的头插、头删两大基础操作,深入剖析了数据挪动的核心思路与代码实现。
2026-01-09 23:47:01
5428
21
原创 【数据结构手札】顺序表实战指南(二):结构体构建 | 初始化 | 打印 | 销毁
本文重点讲解动态顺序表的结构体构建,并实现了初始化、打印、销*三大基础操作。
2026-01-08 23:39:53
6493
68
原创 【数据结构手札】顺序表实战指南(一):线性表定义 | 顺序表定义
本文介绍线性表定义与存储结构,详解静态、动态顺序表的结构、优缺点及适用场景,为后续顺序表实战学习奠定理论基础。
2026-01-07 22:01:21
8978
17
原创 【数据结构手札】空间复杂度详解:概念 | 习题
本文系统解析算法空间复杂度,详解其核心概念与计算方法。通过冒泡排序、斐波那契数列和阶乘递归三大实例,生动展示O(1)、O(N)等常见空间复杂度场景,帮助读者掌握算法内存占用分析技巧,建立完整的算法效率评估体系。
2026-01-06 21:21:25
6490
52
原创 【数据结构手札】时间复杂度详解:概念 | 大O渐进表示法 | 习题
本文系统讲解了算法时间复杂度的核心概念,详细剖析了大O渐进表示法的推导法则,并通过8个经典实例由浅入深地展示了常见复杂度的分析与计算方法,旨在帮助读者建立算法效率分析的完整框架。
2026-01-05 17:07:11
5654
45
原创 【数据结构手札】算法核心概念与复杂度入门
本文系统梳理算法的核心知识,涵盖算法的定义、输入输出等五大特性、正确性与可读性等设计要求,以及事后统计与事前估算两种效率度量方法,在文章末尾简单介绍了时间与空间复杂度。
2026-01-04 19:47:07
5779
27
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅