自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(67)
  • 收藏
  • 关注

原创 【Python】基础语法

本文摘要:Python基础语法要点总结:1. 字面量包括整数、浮点数和字符串三种基本类型;2. 注释分为单行(#)和多行(""")两种形式;3. 变量定义及赋值规则,强调变量名命名规范(见名知意、下划线命名法);4. 数据类型转换方法(int()、float()、str());5. 运算符包括算术运算符和赋值运算符;6. 字符串处理的多种方式(定义、拼接、格式化);7. 数据输入使用input()函数,注意输入内容默认转为字符串类型。全文涵盖Python编程基础核心概念,适合初

2025-07-14 14:42:17 12673 36

原创 【C语言】自定义类型——结构体

C语⾔已经提供了内置类型,如:char、short、int、long、float、double等,但是只有这些内置类型还是不够的,假设我想描述学⽣,描述⼀本书,这时单⼀的内置类型是不⾏的。描述⼀个学⽣需要 名字、年龄、学号、⾝⾼、体重等;描述⼀本书需要作者、出版社、定价等。C语言为了解决这个问题,增加了结构体这种自定义的数据类型,让程序员可以自己创造适合的类型。 数组是一组相同类型元素的集合,而结构体同样也是一些值的集合,不同的是,在结构体中,这些值被称为成员变量,而结构体的每个成员变量可

2024-07-19 18:02:53 18042 112

原创 【C语言】内存函数

C语言标准库中有这样一些内存函数,让我们一起学习吧!!

2024-07-17 08:33:21 12610 105

原创 【C语言】字符函数和字符串函数

编程中我们经常遇到需要处理字符和字符串的情况,为了能够让我们更加方便地操作,C语言提供了一系列相关的库函数。

2024-07-15 12:33:27 13439 92

原创 【C语言】指针(4):深入理解指针

函数指针是将函数的地址取出来,再通过函数地址去调用,那为什么不直接用函数名调用呢??原因是因为函数指针可以用来实现回调函数,而回调函数有自己的应用场景。如果你把函数的指针(地址)作为参数传递给另⼀个函数,当这个指针被⽤来调⽤其所指向的函数 时,被调⽤的函数就是回调函数。以上这段代码中,我们可以把调用的函数地址以参数的形式传去,用函数指针接收,函数指针指向什么函数就调用什么函数,这里其实就是使用的回调函数功能。

2024-07-10 11:28:48 3538 78

原创 3W功耗 HiNas+cpolar,随时随地访问家里的文件

HiNas 作为轻量化家庭 NAS 系统,核心能满足家庭用户的基础存储需求:支持多协议的文件共享与集中存储,能实现多设备间的文件同步,还能通过 Web 界面轻松管理媒体文件,甚至可借助 Docker 扩展更多实用服务,整体适配玩客云等低功耗硬件,是普通家庭搭建私有存储的实用工具。

2026-03-19 19:26:13 12357 6

原创 不用困在局域网!XiuXianGame修仙游戏,外网访问就这么简单

XiuXianGame 是一款以文字为核心的修仙休闲游戏,核心功能涵盖修为提升、灵石积累、休闲小游戏闯关等,玩家可通过手动操作或自动挂机的方式推进修仙进度,整体玩法轻松不耗时,主打碎片化的休闲体验,无需高强度投入就能感受修仙的乐趣。

2026-03-16 15:48:10 10414 3

原创 OpenClaw实战教程:Windows本地部署+公网访问,AI接管电脑全流程

你是否曾被这样的场景困扰:想让 AI 帮忙写一份工作汇报,却要在 ChatGPT 网页、飞书机器人、钉钉助手之间反复切换;出门在外想调取家里电脑的资料,却被局域网限制束手无策;尝试接入不同的 AI 大模型,却被复杂的 API 配置劝退…… 我们对智能助手的期待,从来不是 “只能在单一平台聊聊天”,而是 “能跨场景、跨设备,像真人一样替我们解决实际问题”。

2026-03-13 09:46:54 10273 4

原创 基于 Rokid CXR-M SDK 开发的春节红包记账助手:春节红包一键记录,眼镜实时查看收支

本文介绍了一款基于Rokid CXR-M SDK开发的春节红包记账助手。该应用解决了春节期间红包收发记录困难的问题,通过手机端快速记录红包收支,并同步至眼镜端实时查看统计信息。技术方案采用纯CXR-M SDK开发,具有简单高效、数据安全的特点。核心功能包括红包数据模型管理、收支统计计算和眼镜端信息展示。开发过程仅耗时2小时,通过Android项目集成SDK实现蓝牙通信和数据同步,为春节红包管理提供了便捷的数字化解决方案。

2026-03-08 16:55:26 381

原创 告别餐桌选择困难,YunYouJun cook+cpolar让私房菜谱走到哪用到哪

YunYouJun/cook 是一款聚焦 “解决吃什么” 核心需求的开源工具,核心功能是根据食材、烹饪时长、难度等条件随机推荐菜谱,还支持用户自定义添加私房菜谱,适配 Windows、macOS、Linux 等全平台,无论是厨房新手、上班族还是经常被 “吃什么” 难住的家庭用户,都能从中受益,其开源免费、操作简洁、支持 PWA 离线使用的特点,让它成为日常烹饪的实用小帮手。

2026-03-05 18:31:47 7399 5

原创 搭载cpolar让Tldraw 内网白板秒变公网协作神器

tldraw 是一款开源免费的在线白板工具,它以其简洁易用的界面、强大的实时协作功能和无限扩展的画布空间,支持用户轻松进行图表绘制、头脑风暴及创意分享。无论是在跨平台兼容性、数据持久性和可导出性方面,还是在提供高性能表现上,tldraw 都表现出色,适用于个人创作到团队合作等多种场景,是一个灵活而强大的视觉沟通解决方案。Tldraw 的易用性让可视化协作更高效,cpolar 则打破了其内网使用的局限,让这款工具的实用性进一步提升。

2026-03-02 23:39:35 14604 6

原创 CANN Metadef:AI 算子与模型元数据定义的基石

精心设计了数据结构和规范,以全面准确地描述 AI 算子和张量的各种属性。为开发者提供了一套清晰的规范,用于定义和集成自定义算子,从而灵活扩展CANN的计算能力。开发自定义算子的第一步是准确地定义其元数据。算子类型注册:开发者需要在metadef中注册新的算子类型,并指定其名称。输入/输出张量描述:明确新算子将接受哪些输入张量,生成哪些输出张量。这包括它们的名称、允许的数据类型、形状推导函数等。属性定义:如果自定义算子需要特定的配置参数,开发者需要在metadef。

2026-02-10 16:38:28 319

原创 metadef:AI算子元定义,赋能异构计算AI生态基石

metadef建立标准化的算子描述:为所有支持的AI算子提供一套统一的、形式化的元定义规范。提供算子信息的单一来源:成为整个AI软件栈中算子信息的“真理之源”,确保各组件(如编译器、运行时、工具链)对算子的理解是一致的。支撑高级优化和高效部署:通过精确的元定义,赋能计算图引擎进行更智能、更高效的图优化,从而实现模型在异构计算处理器上的极致性能。metadef仓库中存储的每个算子元定义都包含了一系列关键要素,这些要素共同描述了算子的完整行为和特性。metadef。

2026-02-10 16:37:46 279

原创 metadef 算子元数据定义:专用 AI 处理器上的灵活算子定制与扩展

为了有效地管理和优化算子,一套清晰的定义规范是必不可少的。明确的接口契约:算子定义需要明确其输入张量的数量、数据类型、形状、维度等约束,以及输出张量的推导规则。可配置的属性:许多算子(如卷积)有可配置的参数(如stridepadding),这些也需要通过属性来定义。统一的解析与验证:一个统一的算子定义机制,使得框架的不同组件(如模型转换器、图优化器、调度器)能够以一致的方式解析和验证算子。metadef。

2026-02-10 16:36:52 265

原创 metadef:AI 处理器算子元数据定义框架,构建高效计算基石

算子名称:唯一的字符串标识,例如 “Add”、“Conv2D”、“MatMul” 等。输入张量列表:定义算子接受多少个输入,每个输入的名称、期望的数据类型、维度约束、以及是否可选等信息。输出张量列表:定义算子会产生多少个输出,每个输出的名称、数据类型以及其形状和格式的推导规则。属性列表:定义算子可能包含的配置属性(如stridepaddingaxis),包括属性名称、数据类型、默认值、取值范围或枚举值等。metadef 的开放性和可扩展性对于构建一个活跃且不断发展的 AI 处理器生态系统至关重要。

2026-02-10 16:35:13 363

原创 pyasc:Python赋能异构计算AI,简化模型部署与推理

当内置算子无法满足特定AI算法需求时,pyascPythonic算子注册:虽然底层算子通常用C++开发(例如通过asc-devkit),但pyasc提供了 Python 接口来加载和注册这些自定义算子,使其能够被模型图识别和调用。扩展现有功能:开发者可以通过pyasc提供的低级接口,结合Python的高级抽象,对现有功能进行二次封装或扩展,以满足特定的应用需求。灵活的算子调用:在不涉及整个模型编译的情况下,pyasc也可以提供独立的算子调用接口,用于执行单个或几个异构计算设备上的高性能操作。

2026-02-10 16:24:28 331

原创 pyasc:Pythonic AI 处理器开发接口,释放算力新范式

在人工智能的浪潮中,Python 因其简洁高效的语法和丰富的生态系统,已成为深度学习领域最受欢迎的编程语言。然而,AI 处理器作为底层硬件,其强大的并行计算能力往往需要通过 C/C++ 等低级语言才能充分发挥。这种语言层面的差异,在一定程度上造成了高级框架与底层硬件之间的“鸿沟”,使得 Python 开发者难以直接、高效地利用 AI 处理器的原生能力。正是为弥合这一鸿沟而生。

2026-02-10 16:23:47 382

原创 ops-transformer:异构计算Transformer核心算子库深度解析与性能实践

在当前人工智能的浪潮中,Transformer模型已成为自然语言处理、计算机视觉乃至多模态AI领域的基石。从GPT系列到BERT、ViT,这些模型以其强大的序列建模能力和全局信息捕获机制,不断刷新着各项任务的性能纪录。然而,Transformer模型,尤其是其核心的自注意力(Self-Attention)机制,通常伴随着巨大的计算量和内存带宽需求。在传统的通用计算平台上,执行这些模型往往效率低下,难以满足实时推理和大规模部署的要求。异构计算处理器,凭借其专为AI加速设计的架构,正成为解决这一挑战的关键。它通

2026-02-10 16:21:51 372

原创 ops-transformer:AI 处理器上的高性能 Transformer 算子库

自注意力(Self-Attention)机制的引入,使得 Transformer 模型在自然语言处理(NLP)领域掀起了一场革命,并迅速扩展到计算机视觉、语音识别乃至多模态学习等诸多前沿领域。然而,Transformer 模型,尤其是其核心的注意力机制,带来了巨大的计算开销和内存需求。为了在 AI 处理器上高效运行这些模型,一套高度优化的底层算子库变得至关重要。正是 CANN 软件栈中专注于为 Transformer 模型提供高性能算子的库。

2026-02-10 16:20:44 284

原创 ops-cv:异构计算计算机视觉算子库深度解析

ops-cv。

2026-02-10 16:19:05 261

原创 ops-cv:AI 处理器上的高性能计算机视觉算子库

在某些特定场景下,标准算子可能无法满足需求。基于 Ascend C 开发:开发者可以利用专为 AI 处理器设计的 Ascend C 语言,结合 asc-devkit 提供的底层接口,编写定制化的图像处理 Kernel。注册与集成:提供接口将新开发的自定义算子注册到 ops-cv 库中,使其能够被上层应用和框架统一调用。性能调优工具:配套的性能分析工具可以帮助开发者诊断自定义算子的性能瓶颈,并进行迭代优化。

2026-02-10 16:18:22 375

原创 深度解析 ops-nn 仓库:异构架构下的非矩阵算子性能优化与显存管理

在高性能计算领域,算子的执行效率往往直接决定了深度学习模型的吞吐能力。虽然矩阵乘法在计算量上占据绝对主导,但在 Transformer 等现代架构中,非矩阵算子(如 Softmax、LayerNorm)由于其高访存、高频率的特征,常常成为制约端到端性能的“木桶短板”。针对这些挑战,通过深度硬件感知和算子融合技术,为非矩阵运算提供了极致的加速方案。

2026-02-07 00:17:28 475

原创 深度解析 ops-adv 仓库:面向大语言模型的高性能算子优化与架构实现

通过对。

2026-02-07 00:16:50 398

原创 分布式集群通信的效能之核:HCCL 架构深度解析与实战策略

在超大规模模型训练与分布式深度学习的背景下,单卡算力早已无法满足日益增长的计算需求。分布式系统的性能瓶颈往往不再是单纯的数值运算速度,而是跨卡、跨节点之间的数据交换效率。HCCL(Hierarchical Communication Control Library)作为计算平台核心的通信加速库,通过对硬件链路的深度抽象与算法优化,构建了支撑万卡集群协同工作的逻辑底座。

2026-02-07 00:16:05 374

原创 ops-transformer 算子库:CANN 架构对 Transformer 核心操作的深度优化与融合

这种优化显著降低了归一化层的延迟,确保了在大模型深层拓扑结构中,每一层的预处理和后处理过程都能保持极致的灵敏度。这种“原地更新”的模式避免了数据的重复搬运,使得原本昂贵的非线性变换能够以近乎零成本的访存开销完成,显著优化了长序列场景下的端到端响应时间。这种对计算密集型任务的深度打磨,使得 MLP 层的执行时间得到了有效控制,显著提升了模型的整体训练和推理效率。在传统的执行模式中,缩放因子应用与 Softmax 计算是分离的,而在此算子库中,这两者被紧密集成到矩阵乘法的后处理阶段。

2026-02-07 00:15:12 348

原创 CANN 算子生态的构建闭环:从 ops-nn 理解到自定义工具链的维护

这种模式利用了硬件的多执行单元特性,使得当前块的计算、下一块的数据载入以及前一块的结果写回能够重叠执行。在多核环境下,图引擎会根据算子依赖关系,通过智能调度算法,将计算任务均衡地分配到各个核心,避免出现计算瓶颈或核心空转,实现系统级的能效最大化。这种闭环机制确保了计算栈始终能跑在算法创新的最前沿,通过不断进化的算子集合,最大化释放硬件的计算潜能。在算子开发周期内,必须建立严苛的精度验证流程,通过与标准 CPU 实现进行结果比对,确保在各种分布的测试数据下,算子输出的最大绝对误差与相对误差均在可接受范围内。

2026-02-07 00:14:42 329

原创 使用 runtime 仓库构建异构计算图优化与高效执行体系深度解析

自动算子融合是runtime提升执行效率的核心手段。融合的本质是减少数据在全局显存(HBM)与计算核心之间的往返次数。基于对硬件架构的深度理解,引擎定义了一系列融合规则。例如,常见的链条会被融合为一个单一的任务。在未融合的情况下,卷积的输出需要写回 HBM,再被 BN 读回,BN 的输出再次写回后被 ReLU 读回。融合后,中间结果仅在 Local Memory 中流转,从而消除了两次昂贵的显存读写操作。这种基于经验和硬件特性的融合策略,直接缓解了异构计算中的带宽瓶颈。

2026-02-07 00:13:45 433

原创 深度解析 ops-nn 算子库:量化架构、计算精度与极致性能优化

在当代深度学习算力架构中,如何平衡计算精度与处理效率是衡量底层算子库核心竞争力的关键指标。仓库作为构建神经网络底座的核心算子库,其内部实现的 INT8 量化技术不仅是简单的数值截断,而是一套涵盖了数学建模、硬件指令协同与内存层级优化的完整工程方案。通过对线性量化参数(Scale 与 Zero Point)的精密控制,该库在保证模型数值稳定性的前提下,极大地释放了计算单元的原始性能。

2026-02-07 00:13:13 477

原创 进阶算子架构深度解析:基于 ops-adv 仓库的分布式训练与混合精度优化

在当前超大规模参数模型(Large-scale Models)的竞赛中,底层算子库的性能不仅关乎单卡吞吐量,更直接决定了万卡集群的线性加速比。作为计算架构中的进阶算子底座,专注于攻克分布式环境下的通信瓶颈、混合精度下的数值稳定性以及长序列处理中的访存压力。本文将从通信计算融合、FP8 混合精度、专家并行、内存重用及自适应编译五个维度,深度探讨该仓库的技术底蕴。

2026-02-07 00:12:26 466

原创 深度解析 ops-adv 仓库:大语言模型下的进阶算子设计与性能飞跃

在生成式 AI 席卷全球的浪潮中,计算任务正从传统的稠密卷积向超大规模参数、超长序列的注意力机制演进。作为针对进阶算法设计的核心库,承担了攻克大模型推理与训练中“算力墙”与“内存墙”的重任。本文将深入解构该仓库如何通过精密设计的算子矩阵,支撑起万亿参数模型的流畅运行。

2026-02-07 00:01:30 375

原创 ops-nn 算子库的终极深度工程解析:训练一致性、融合反向链与混合精度梯度流的工程控制

ops-nn算子库是实现高性能异构训练和推理的核心执行载体。其卓越性能来源于对自动微分一致性的严格维护、对混合精度计算的精细控制,以及通过与 GE 协同实现的深度算子融合和反向链优化。它确保了上层模型逻辑能够在底层硬件上以最高效、最稳定的方式运行。

2026-02-07 00:00:37 901

原创 CANN HCOMM 深度解析:打造弹性高效的异构分布式通信底座

CANN HCOMM 仓库通过对底层通信链路的深度抽象和智能化管理,为异构分布式计算架构提供了坚实的基础。它不仅实现了高性能的数据传输,更确保了系统在面对复杂网络环境和硬件故障时的稳定性和可扩展性,是构建大规模 AI 集群的关键组件。

2026-02-06 18:53:01 433

原创 HCOMM 集合通信库深度工程解析:从 Ring 算法到 RDMA 内核旁路的高效异构数据同步策略

HCOMM (High Performance Communication) 是 CANN 架构中负责大规模分布式训练通信的基石。它超越了传统通信库(如 MPI)的通用性,深度集成硬件加速特性,旨在将逻辑集合通信算法(如 AllReduce)转化为与底层物理拓扑(如 HCCS/PCIe/RoCE)最高效匹配的硬件指令序列。其核心目标是实现的数据同步,解决大规模模型训练中的通信瓶颈。

2026-02-06 18:52:24 438

原创 CANN ops-cv 实战指南:打造 GPU/NPU 零等待的高性能在线数据增强流水线

在深度学习训练循环中,理想的状态是计算设备(NPU/GPU)始终满载运行反向传播计算。然而,现实中常常出现“计算等数据”的现象,即 Device 侧的计算速度远快于 Host 侧 CPU 提供数据的速度。

2026-02-06 18:49:59 713

原创 CANN ops-cv 深度架构:异构计算下的图像处理算子优化原理、显存管理与 DVPP 协同机制

ops-cv。

2026-02-06 18:48:39 962

原创 CANN ops-cv 技术解密:图像处理与目标检测算子的 NPU 硬件加速与性能调优策略

在现代计算机视觉(CV)应用开发中,纯粹追求模型推理算力的时代已经过去。随着神经网络骨干(Backbone)性能的不断攀升,开发者逐渐发现整体系统的性能瓶颈已经转移到了看似简单的图像预处理和后处理环节。正是为解决这一痛点而生,它通过提供一系列高度优化的硬件加速算子,将原本堆滞在 CPU 端的繁琐任务彻底释放到专用的计算单元中。

2026-02-06 18:44:28 339

原创 CANN 算子交付效能革命:利用 oam-tools 构筑 CI/CD 流水线中的全链路故障熔断与性能护栏

oam-tools 具备实时的库依赖扫描能力,能自动检查系统路径中是否完整包含了所有的核心算法库。oam-tools 提供的环境检查功能作为流水线的第一道门禁,会自动扫描计算节点的底层驱动、固件及操作系统配置。oam-tools 内置了权威的版本兼容性矩阵,能自动比对当前安装的开发包与硬件驱动是否处于受支持的配对区间。oam-tools 提供了一套闭环的任务资源追踪体系,能在测试前后对比执行流、事件句柄及内存块的存活状态。在复杂的并行测试中,孤立的错误日志往往难以揭示故障全貌。

2026-02-06 18:42:51 420

原创 ops-nn 算子库的终极深度解析:自动微分一致性、融合反向链与混合精度梯度流的工程控制

ops-nn算子库是实现异构加速性能的关键。它通过建立前向状态缓存机制确保微分一致性,通过高精度梯度处理保障训练稳定性,并通过与 GE 协同实现高性能的融合反向传播。这些机制共同作用,使得上层深度学习模型能够在 NPU 上高效、稳定地完成前向和反向的完整迭代过程。

2026-02-06 18:41:07 431

原创 CANN ops-nn 深度解析:基于 Tiling 与融合的异构算子极致性能工程实践

在 CANN 异构计算架构中,算子库是实现神经网络核心运算性能的基石。它代表了将上层数学逻辑转化为 NPU 硬件高效执行指令的关键工程能力。要实现算子性能的突破,必须超越简单的功能实现,深入到硬件微架构的每一个细节,构建从性能量化、内核诊断、基准对标到自动化部署的完整优化闭环。

2026-02-06 18:30:19 435

原创 ops-math 算子库:原子数学运算的指令级深度工程与混合精度容错机制全景解析

ops-math算子库是 CANN 异构计算架构中提供基础数学计算能力的基石。它不仅仅是标准数学函数的封装,而是直接面向硬件 Vector Unit 和 Tensor Core 的。其核心目标是提供无软件抽象开销的原子操作,以保证 LLM 等计算密集型任务的性能下限。

2026-02-06 18:27:32 447

C语言期末复习复习题目

C语言期末复习复习题目

2024-06-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除