- 博客(24)
- 收藏
- 关注
原创 CANN MetaDef 深度解析:Ascend AI 处理器上算子定义的“蓝图与契约”
异构计算环境下,AI 框架和硬件之间存在巨大的抽象鸿沟。框架多样性:MindSpore、PyTorch、TensorFlow 等不同的 AI 框架有各自的算子表达方式和图表示。硬件复杂性:Ascend AI 处理器拥有独特的架构,如 Cube Unit、Vector Unit、多级缓存和 DMA 机制,需要特定的数据布局和指令集才能发挥最佳性能。生态统一性:为了让不同框架的模型都能在 Ascend 上高效运行,并享受到统一的优化,亟需一套标准来描述算子。MetaDef。
2026-02-07 15:35:04
295
原创 metadef 元定义:异构计算算子与图结构的统一规范
算子定义(OpDef)是metadef中最核心的组成部分,它通过一套严谨的语法和结构,详细描述了一个算子的一切行为特征。metadef命名规范:通过为输入、输出和属性提供清晰、有意义的名称,metadef使得图的结构和数据流一目了然。开发者可以更容易地理解模型的计算逻辑,而无需深入查看每个算子的内部实现。序列化能力:由于metadef精确定义了所有图元素的结构和属性,计算图可以方便地被序列化为二进制文件(如部署用的.om文件)或文本格式(如 ONNX)。
2026-02-07 15:34:29
314
原创 hcomm 深度解析:专用 AI 处理器集群的高效通信引擎
hcomm作为 CANN 体系中专为专用 AI 处理器集群打造的高效通信引擎,是支撑大规模分布式 AI 训练和推理的关键。它通过深度集成底层高速互联硬件、提供优化通信原语、实现通信与计算重叠,并支持智能调度与内存管理等策略,有效解决了异构计算和分布式环境下的通信瓶颈。hcomm的存在,使得深度学习开发者能够以更少的精力,在专用 AI 处理器集群上构建和部署超大规模的 AI 模型,显著提升了训练效率和推理性能。随着 AI 模型规模的持续膨胀,hcomm。
2026-02-07 15:33:59
402
原创 CANN HComm:AI 处理器高性能分布式通信引擎
随着深度学习模型规模的爆炸式增长,单颗 AI 处理器已经难以满足训练和推理对算力和内存的需求。分布式并行计算成为必然趋势,而高性能的设备间通信是实现高效分布式计算的核心瓶颈。正是为了解决这一挑战而设计的,它是一个专为 AI 处理器集群打造的高性能通信库。HComm 提供了多种优化的通信原语,包括集合通信(如 AllReduce, AllGather)和点对点通信(如 Send, Recv),旨在最大限度地减少 AI 处理器之间的数据传输延迟和带宽占用。
2026-02-07 15:33:16
443
原创 ops-transformer:异构计算处理器上Transformer算子的性能加速器
仓库通过提供一套深度优化的 Transformer 算子,极大地解决了在异构计算处理器上运行大规模 Transformer 模型所面临的性能挑战。它是连接高层模型抽象与底层硬件效率的关键枢纽,是整个异构计算生态系统中不可或缺的性能加速器。
2026-02-07 00:19:26
271
原创 CANN pyPto:PyTorch 框架的 AI 处理器高效适配利器
Ascend C 算子集成:如果模型中包含特定于领域或前沿研究的算子,pyPto 提供了与 CANN Ascend C 自定义算子开发的接口,允许开发者编写高性能的自定义核函数并在 PyTorch 中使用。Python/C++ 扩展:开发者可以通过 PyTorch 提供的标准 C++/Python 扩展机制,在 pyPto 环境中添加自定义操作。持续演进:pyPto 作为一个开放的生态组件,持续与 PyTorch 社区保持同步,并不断扩展其算子覆盖范围和功能。
2026-02-06 18:53:41
378
原创 pypto`深度解析:弥合 PyTorch 与专用 AI 处理器之间的鸿沟
对于 PyTorch 中没有原生实现或用户希望进行定制优化的算子,pyptoC++/CUDA 扩展支持:开发者可以编写 C++/CUDA 扩展来定义新的 PyTorch 算子。pypto能够识别这些扩展,并将它们桥接到 CANN 的自定义算子开发框架(如 TBE)上,使得这些算子也能在专用 AI 处理器上高效执行。TBE 算子集成:对于直接基于 TBE 框架开发的算子,pypto提供接口使其能够被 PyTorch 调用,实现从 Python 到底层硬件的端到端路径。兼容。
2026-02-06 18:51:15
590
原创 ATVOSS:异构计算虚拟操作系统服务核心
atvoss仓库作为异构计算处理器的虚拟操作系统服务核心,为上层应用和框架提供了统一、高效、隔离的硬件访问接口,是构建高性能、高可靠异构计算系统的基石。它通过细致的设备抽象、资源虚拟化、任务调度和错误处理机制,有效管理了异构硬件的复杂性,释放了其强大的计算潜能。
2026-02-06 18:49:01
337
原创 CANN ATVosS:构建 AI 算子行为与价值的精确规约——定制化算子开发的“智能蓝图”
开发一个定制算子通常遵循以下步骤,其中ATVosS需求分析:明确算子的数学功能、输入输出、所需精度及任何特殊的数值行为。编写 ATVosS 规约:根据算子的需求,精确地编写ATVosS规约文件,包含输入输出、属性、值域、行为定义等所有必要信息。这一步相当于为算子绘制“智能蓝图”。Ascend C 算子实现:基于ATVosS规约,使用Ascend C语言或其他底层编程接口(如 TBE),实现算子的具体计算逻辑,确保实现与规约完全一致。注册与集成:将ATVosS规约和算子实现注册到CANN。
2026-02-06 18:45:11
447
原创 CANN asc-devkit:AI 处理器设备与编程接口的核心工具集
CANN asc-devkit 作为 AI 处理器设备管理和编程的核心工具集,是 CANN 异构计算生态中不可或缺的底层支撑。它不仅提供了设备和资源的统一抽象,高效的内存管理,以及精细的任务调度能力,更为开发者提供了直接与硬件交互的低级编程接口,使得自定义算子开发和深度性能优化成为可能。通过 asc-devkit,开发者能够充分发挥 AI 处理器的强大算力,突破传统计算瓶颈,从而在深度学习训练、推理部署以及各类专业 AI 应用场景中实现卓越的性能。
2026-02-06 18:38:30
235
原创 基于 CodeRider-Kilo 的高效全栈开发实践:以番茄钟软件为例
在现代集成开发环境(IDE)的演进过程中,代码编写的逻辑已经从纯粹的手动输入转向了智能化的逻辑构建。CodeRider-Kilo 插件在 VSCode 中的深度集成,标志着开发者进入了一个全新的生产力时代。通过利用该插件,开发者可以实现从需求概念到完整产品的闭环开发。通过 CodeRider-Kilo 的辅助,一个具备完整功能模块、数据持久化能力、美观 GUI 界面的番茄钟软件可以在极短的时间内从构思变为现实。
2025-12-18 23:32:56
7304
原创 深度解析:基于 DeepSeek V3.2 与 Claude Code 构建终端智能体开发环境
在当今的软件工程领域,将大型语言模型(LLM)集成至本地开发环境已成为提升生产效率的关键路径。Claude Code 作为 Anthropic 推出的新一代命令行辅助工具,具备深度理解代码库与执行系统操作的能力。而 DeepSeek V3.2 作为当前表现优异的模型,通过兼容 OpenAI 协议的 API 接口,能够为 Claude Code 提供强大的推理后端。本文将详细阐述如何在 Ubuntu 环境下,从零构建基于 Claude Code 的智能终端开发环境。
2025-12-18 10:11:38
23279
181
原创 Qwen3-VL-32B-Instruct —— 多模态视觉语言模型的性能巅峰与工程实践
在当前人工智能技术飞速发展的背景下,视觉语言模型(Vision-Language Models, VLM)正逐渐成为连接物理世界与数字智能的核心桥梁。通义千问团队推出的Qwen3-VL系列,代表了当前多模态领域的顶尖水平。其中,作为该系列中最大尺寸的Dense(稠密)模型非推理版本,其定位十分精准:它在保持了相对可控的计算资源消耗的同时,提供了仅次于Qwen3-VL-235B-Instruct旗舰模型的综合表现。
2025-12-02 11:07:11
31075
180
原创 从ONNX图到昇腾执行:CANN模型解析、算子映射与图优化深度揭秘
当一个ONNX算子既不能直接映射,也无法被有效地分解时(例如,它是一个全新的、算法高度特化的操作),我们就遇到了**“算子不支持(Unsupported Operator)”**的情况。最后,CANN的运行时(Runtime)会接管这张执行图,按照优化的顺序,逐一调用TBE对算子进行JIT编译,生成二进制核函数,并下发到NPU的AI Core和AI CPU上执行。算子映射,是整个转换过程的“心脏”。此时,我们就需要利用TBE或AI CPU,为这个“未知”的ONNX算子,编写一个对应的CANN算子实现。
2025-11-07 12:21:02
790
原创 超越核函数:掌握昇腾CANN中的主机-设备交互,实现端到端性能跃升
如果这场交响乐的指挥节奏混乱,充满了不必要的停顿和等待,那么无论单个乐手(核函数)的技艺多么高超,最终的演出(端到端性能)也必然是缓慢而拖沓的。对于需要处理一批数据的任务,我们可以将其切分成多个数据块(Chunks),并使用至少三个Stream来构建流水线:一个用于将数据从主机拷贝到设备(H2D),一个用于计算,一个用于将结果从设备拷回主机(D2H)。这个过程增加了一次额外的内存拷贝。我们可以创建多个Stream,将一个复杂的任务分解成多个独立的子任务,分配到不同的Stream中,从而实现任务级的并行。
2025-11-07 12:20:24
613
原创 算子开发实战:基于 CANN 的 Add 算子从理论到代码的完整构建
AI大模型时代,我们往往惊叹于上层应用的强大,却很少有机会深入底层,去探究那些支撑起庞大模型的“砖石”——AI算子。回顾整个过程,我们从一个简单的Add算子出发,完整地体验了昇腾CANN算子开发的标准流程。”,但相信我,麻雀虽小,五脏俱全。通过实现它,我们能完整地走通CANN算子开发的整个流程,为后续更复杂的算子开发打下坚实的基础。等专题课程,无论你是哪个阶段的开发者,都能找到适合自己的路径,快速提升算子开发技能。那样的输出,显示了NPU的型号、温度、功耗等信息,那么恭喜你,硬件环境基本没问题。
2025-11-06 17:58:39
907
原创 AI 应用内卷时代,开发者的核心竞争力:从应用层到底层技术的深耕之路
焦虑的是,技术的迭代速度快到令人窒息。以昇腾为核心的国产AI计算体系正在蓬勃发展,从硬件、驱动、计算架构到AI框架,再到上层应用,一个完整的、自主可控的生态正在形成。我们将一起拨开应用层喧嚣的迷雾,深入到AI技术的“发动机舱”,探讨为什么在AI应用极度内卷的当下,掌握底层算子开发,才是那张能让你在未来立于不败之地的王牌。最近,我在“2025年昇腾CANN训练营第二季”的学习中,找到了一个让我心安,也让我重新燃起技术热情的答案停止在应用层随波逐流,选择向下扎根,去构建属于自己的、坚不可摧的底层技术护城河。
2025-11-06 17:58:08
696
原创 神的泪水-构建与解析:基于多AI模型并行的内容生成与对比分析工作流
在人工智能迅猛发展的今天,大型语言模型(LLM)已成为内容创作、数据分析和自动化任务的核心驱动力。然而,不同模型在架构、训练数据和优化目标上的差异,导致其在处理相同任务时会产生风格、侧重点和准确性各不相同的输出。因此,如何高效、直观地对不同模型的输出进行横向对比,以选择最适合特定场景的模型,成为了一个亟待解决的课题。本文将详细拆解一个专为AI内容对比输出而设计的工作流,通过具体实例分析其构建逻辑、运行机制和应用价值,并进一步探讨其在模型评估、提示词工程优化及未来多智能体协作系统中的广阔前景。
2025-10-26 19:20:40
25299
174
原创 基于Qwen3大模型与蓝耘MaaS的本地化翻译工具开发实践与技术解析
平台提供的在线免费体验功能更是让我感到惊喜,它允许我在投入任何资源之前,就能亲手测试模型的实际能力,这种“先试后买”的模式无疑增加了我的选型信心。但我很快发现,Qwen3模型在对话模式下,为了显得更礼貌和人性化,返回的内容有时会包含一些额外信息,比如“好的,这是翻译成法语的结果:‘Bonjour le monde’”。然后,我做了一件在几年前还无法想象的事情:我将这个纯文本的需求文件,直接“喂”给了我本地的AI开发助手,并向它下达指令:“请根据这个文件的需求,为我生成一个完整的Python应用程序。
2025-10-24 09:02:51
30725
180
原创 机器学习之---超越预测:开启生成式AI与大语言模型的新纪元
我们正处在一个由生成式AI定义的激动人心的时代。Transformer架构为机器理解和生成语言提供了前所未有的能力,而大语言模型则将这种能力推向了令人惊叹的高度。对于我们这些技术从业者而言,这意味着一个巨大的机遇。我们不再仅仅是数据的分析者,我们正在成为新一代AI应用的构建者和指挥家。学习提示工程、掌握RAG架构、探索领域微调,这些将是未来几年最具价值的技能。这不再是一个关于机器将取代谁的故事,而是一个关于那些善于与机器协作的人,将如何释放出无与伦比的创造力的故事。
2025-10-21 14:34:56
990
原创 从模型到产品:一文读懂机器学习运维(MLOps)
一个模型的产生,依赖于特定的代码版本、特定的数据集、特定的超参数和特定的软件环境。这种“一次性”的实验,无法形成可靠的、可迭代的资产。拥抱它,你才能真正地将你的机器学习技能,从创造“聪明的模型”,提升到构建“可靠的、能持续创造价值的AI产品”的高度。你用1到6月的数据训练了一个完美的模型,但在7月份,公司推出了一项全新的促销活动,彻底改变了用户的行为模式。本文将为你揭开MLOps的神秘面纱,让你理解为什么它是将AI从“酷炫的技术演示”转变为“可靠的商业产品”的必经之路,并为你提供一个简化的实践蓝图。
2025-10-19 09:54:02
734
原创 机器学习项目从端到端:构建一个高价值的客户流失预测模型
文件部署为一个API服务。当客户终止服务,企业失去的不仅是未来的收入,还有之前为获取该客户所投入的所有营销成本。我们从一个模糊的业务需求出发,通过一个结构化、端到端的机器学习流程,最终不仅构建了一个高性能的预测模型,还从模型中挖掘出了能够直接指导商业决策的深刻洞察。——即“模型预测正确的比例”——是一个很直观的指标,但它在流失预测这类**数据不平衡(Imbalanced Data)**的场景中具有极大的误导性。这个项目完美地诠释了机器学习的真正价值:它不是一个神秘的黑箱,而是一个强大的工具,能帮助我们。
2025-10-18 11:36:42
1092
原创 机器学习实战:从问题定义到模型部署的全流程深度解析
从解锁手机的人脸识别,到预测天气变化的精准模型,再到为你量身打造的购物推荐,机器学习(Machine Learning, ML)正以前所未有的深度和广度,成为现代科技的基石。我们共同走过了一个完整的机器学习项目流程,从最初的业务构想,到数据的处理与探索,再到模型的构建、评估与部署。本文为你提供的,是一个坚实的起点和一张清晰的地图。这个例子展示了深度学习的强大之处:我们几乎没有做任何手动的特征工程,仅仅通过定义一个合适的网络结构,模型就能从原始的像素点中学习到如何区分10个不同的数字,并达到非常高的准确率。
2025-10-17 09:32:20
10230
原创 机器学习:从零到一,一部通往未来的万字指南
在21世纪的今天,我们正处在一个由数据驱动的时代。从我们每天在电商网站上看到的个性化推荐,到手机上精准的语音助手,再到医疗领域中日益精确的疾病诊断,背后都离不开一项革命性的技术——机器学习。它不再是科幻小说中的遥远想象,而是已经渗透到我们生活方方面面的强大引擎。这篇万字长文将作为你的向导,带你踏上一段从零到一的机器学习探索之旅。
2025-10-16 13:08:04
24199
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅