自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(545)
  • 收藏
  • 关注

原创 道路表面多类型缺陷的图像识别数据集分享(适用于目标检测任务)

本文分享了一个用于道路缺陷检测的深度学习数据集,包含6000张高分辨率图像,涵盖8类常见道路缺陷(裂缝、井盖、坑洼等)。数据集采用YOLO格式标注,已划分为训练集(70%)、验证集(20%)和测试集(10%),覆盖多种道路类型和天气条件。数据采集遵循多场景、多缺陷类型原则,经过严格的质量控制和标注验证流程。该数据集可直接用于目标检测模型的训练与评估,为道路巡检智能化提供数据支持。下载链接:https://pan.baidu.com/s/1zm7MASvhx1a57xvftcGZvw 提取码: tkb6

2026-02-15 16:21:19 638

原创 恶性疟原虫显微镜图像的目标检测数据集分享(适用于目标检测任务)

恶性疟原虫显微镜图像数据集分享 摘要:本文分享了一个针对恶性疟原虫检测的高质量显微镜图像数据集,包含2700张标注图像(YOLO格式),已划分为训练集、验证集和测试集。该数据集具有以下特点:1)专注恶性疟原虫单一类别检测;2)涵盖不同放大倍数、染色条件和感染阶段的多样图像;3)专业医学标注确保准确性。适用于目标检测模型训练、医学AI研究、临床辅助诊断等场景。数据集可通过百度网盘获取(链接:https://pan.baidu.com/s/1tgYelCoWuFhRzDoHS1nQ?pwd=3cat),为疟疾自

2026-02-15 15:59:14 621

原创 高压电线电力巡检六类目标的图像识别数据集分享(适用于目标检测任务)

本文介绍了一个高压电线电力巡检图像识别数据集,包含2000张标注图像,覆盖电缆破损、绝缘子破损等6类典型巡检目标。数据集采用YOLO格式标注,已合理划分为训练集(1400张)、验证集和测试集(各300张)。该数据集具有高质量标注、场景覆盖全面等特点,适用于电力巡检目标检测、缺陷识别等任务,支持YOLOv5/v8等主流框架。数据集已预处理完成,可直接用于模型训练,为电力巡检智能化提供数据支持。下载链接为百度网盘,提取码inck。

2026-02-14 15:37:41 733

原创 七种常见虫子的图像识别数据集分享(适用于目标检测任务)

分享一个包含7种常见虫子的目标检测数据集,适用于YOLO系列模型训练。该数据集包含近3000张高清图像,涵盖7类常见昆虫,已按训练集(2089张)、验证集(447张)和测试集(448张)划分,提供YOLO格式标注文件。数据来源包括实地拍摄和公开资源,经专业人员标注确保质量。适用于农业害虫识别、生态研究、边缘设备部署等场景,支持YOLOv5/v8/v11等模型训练。数据集特点包括样本充足、类别多样、标注规范,特别适合小样本学习和数据增强研究。网盘链接已提供下载。

2026-02-14 15:24:29 659

原创 金属材料表面六种缺陷类型数据集:工业视觉检测的优质训练资源

本数据集包含1800张金属表面缺陷图像,涵盖6类典型缺陷(裂纹、夹杂、斑痕、凹坑、氧化皮、划痕),采用YOLO格式标注并按7:2:1划分训练/验证/测试集。图像统一为640×640分辨率,标注精确,可直接用于工业视觉检测模型的训练和评估。数据集特点包括真实工业场景采集、多类型缺陷覆盖、高质量人工标注,适用于目标检测、缺陷分类及工业质检系统开发等任务。该资源为金属表面缺陷智能检测研究提供了标准化的基准数据支持。

2026-02-13 15:26:01 570

原创 100类中药材图像识别数据集分享(适用于目标检测任务)

本数据集收录了来自中药材识别实际场景中的100个类别图像,总计9200张高质量样本图。这些图像已按照train/val分组格式进行整理,适用于主流深度学习框架(如PyTorch、TensorFlow、YOLO等)的训练与验证流程。图像分辨率清晰,涵盖了不同拍摄角度、光照条件和背景下的实物图像,既体现了真实场景的复杂性,又保证了语义的代表性。中药文化源远流长,是中华民族的瑰宝。随着人工智能技术的不断发展,将其应用于中医药领域,实现中药材的智能识别,对于推动中医药现代化具有重要意义。

2026-02-13 15:18:39 662

原创 CANN PyPTO并行张量分块操作编程范式在高效计算中的应用

摘要:PyPTO是CANN提供的并行张量分块操作编程范式,通过分块计算和并行执行实现高效张量操作。其核心技术包括分块策略(静态/动态/自适应分块)、并行执行机制(数据/任务/流水线并行)和内存优化技术(复用/对齐/预取)。PyPTO采用模块化设计,与CANN生态深度集成,已在图像处理、NLP等领域实现2-4倍性能提升。该范式通过优化计算并行度和缓存利用率,有效解决了大规模张量计算性能瓶颈问题。

2026-02-10 15:56:17 117

原创 CANN MetaDef元数据定义框架在算子描述与注册中的核心作用

摘要:CANN MetaDef框架作为算子元数据定义的核心组件,通过标准化描述和注册机制连接算子实现与使用。该框架采用模块化设计,包含算子描述、注册和发现三大功能模块,支持功能定义、输入输出描述、属性配置等完整算子信息。MetaDef提供静态/动态注册、版本管理和兼容性检查机制,并与CANN其他组件深度集成。实践表明,该框架可显著提升算子开发效率(注册时间减少80%)和可发现性(提升90%),为AI计算生态提供统一的元数据管理解决方案。

2026-02-10 15:55:34 162

原创 CANN HIXL单边通信库在集群场景中的高效点对点数据传输

HIXL是CANN提供的高效单边通信库,专为集群场景设计,实现简单可靠的点对点数据传输。该库采用分层架构,支持Put、Get、Accumulate等核心操作,并集成了零拷贝、RDMA等优化技术。HIXL与CANN生态深度集成,已在参数服务器、分布式缓存等场景中显著提升性能。通过异步传输、自动调优等功能,HIXL简化了通信编程模型,降低了50%以上的通信开销,为分布式计算提供了高效的通信解决方案。

2026-02-10 15:54:54 179

原创 CANN Ops-Transformer Transformer类大模型算子库加速计算技术解析

摘要: CANN Ops-Transformer是针对Transformer类大模型的专用算子库,通过算子融合、内存优化等技术在NPU上实现高效计算。其核心设计包括自注意力模块和前馈网络模块的深度优化,将传统独立算子合并为融合算子,减少内存访问与同步开销。通过矩阵乘单元加速QKV计算、流水线并行执行注意力分数与softmax等优化手段,显著提升BERT、GPT等模型的推理性能(最高达4倍)。该库与CANN生态深度集成,支持自然语言处理、计算机视觉等场景,并提供模块化API与自动调优功能,为Transform

2026-02-10 15:53:36 218

原创 CANN HCCL集合通信库在分布式训练中的高性能通信方案

HCCL(华为集合通信库)是CANN AI处理器生态中的高性能分布式通信解决方案。该库通过分层架构设计,支持AllReduce、Broadcast等多种集合通信操作,并针对不同集群规模优化了环形、树形等通信拓扑算法。HCCL采用通信重叠、压缩等优化技术,深度集成CANN硬件特性,显著提升大模型训练效率,在LLaMA-65B等案例中实现4倍以上的加速。该库提供完善的API和文档支持,为分布式AI训练提供高可靠、低延迟的通信能力。

2026-02-10 15:53:03 222

原创 CANN Mat-Chem-Sim-Pred工业领域计算仿真与预测技术解析

摘要: Mat-Chem-Sim-Pred是CANN组织针对工业领域开发的计算仿真与预测技术平台,专注于材料科学、化学工程和制药工业三大核心领域。该平台通过AI加速、算子优化和硬件优化等技术,解决了工业仿真面临的高计算复杂度、大数据规模和高精度要求等挑战。采用模块化架构设计,提供材料设计/模拟/优化、化学反应预测、药物发现等完整解决方案。平台通过算子融合、替换和重排等优化技术显著提升计算效率,为工业领域的材料研发、化工过程和药物开发提供高效精准的仿真预测能力。

2026-02-10 15:40:01 193

原创 CANN Release-Management版本发布管理在开源项目中的核心作用

CANN的Release-Management版本发布管理系统在开源项目中发挥着关键作用,通过质量控制、变更管理和发布效率优化三大机制确保项目稳定发展。该系统采用模块化设计,包含发布流程、质量控制、变更管理等核心模块,支持代码审查、自动化测试、性能测试等质量控制措施,并实现变更追踪、审核和回滚功能。通过自动化发布工具和多环境支持显著提升发布效率,与CANN其他组件深度集成,为开源项目提供全面的版本发布管理解决方案。

2026-02-10 15:39:06 279

原创 CANN CANN-Recipes-Spatial-Intelligence空间智能业务优化样例

CANN-Recipes-Spatial-Intelligence是针对空间智能业务的优化解决方案,涵盖遥感图像处理、三维重建和空间分析三大核心领域。该项目通过模型压缩、算子融合、并行计算等技术优化空间智能任务的计算性能,支持多种主流算法和模型。其模块化架构设计提供了遥感图像分类、目标检测、点云处理等典型场景的优化样例,并包含详细的性能分析。该方案有效解决了空间智能面临的大数据量、高计算复杂度和实时性要求等挑战,为开发者提供了完整的优化参考。

2026-02-10 15:38:22 313

原创 CANN ATVOSS Vector算子库在融合算子开发中的极简高效编程范式

ATVOSS Vector算子库为Ascend C提供了一种极简高效的融合算子开发范式。该库通过模板化架构设计,将复杂的Vector算子分解为可复用的模板和子程序,显著降低了开发难度。ATVOSS实现了四大核心特性:极简编程(模板化、子程序化、声明式)、高效开发(快速开发、代码复用)、高性能(向量化、流水线优化)和高拓展(算子组合与定制)。实践表明,ATVOSS能有效简化融合算子开发流程,提升开发效率,同时保证算子性能,已在模型优化和性能调优等场景中成功应用。

2026-02-10 15:37:41 278

原创 基于CANN的HCCL集合通信库深度技术解析与架构设计分析

HCCL(Huawei Collective Communication Library)是CANN生态中的高性能集合通信库,专为CANN AI处理器优化。本文分析了HCCL的分层架构设计,包括通信原语层、拓扑管理层和传输层等核心模块,深入探讨了AllReduce等关键通信原语的实现原理及优化策略。HCCL采用智能拓扑选择机制,支持Ring、Tree等多种通信拓扑,并针对CANN硬件特性实现了数据分片、流水线并行等技术优化。此外,HCCL还具备完善的容错机制,确保大规模分布式训练的可靠性。相比NCCL等通用

2026-02-10 00:31:40 619

原创 CANN计算仿真预测Mat-Chem-Sim-Pred的架构设计与化学计算优化技术深度解析

CANN的Mat-Chem-Sim-Pred是一个面向化学计算的高效仿真预测系统,包含分子建模、仿真计算、性质预测和优化四大模块。该系统采用模块化架构设计,支持分子动力学、蒙特卡洛和量子化学等核心算法,提供分子性质、反应路径和生物活性等预测功能。通过针对CANN硬件的深度优化,Mat-Chem-Sim-Pred显著提升了化学计算的性能和精度,为药物研发和材料设计提供强大支持。项目开源社区活跃,持续更新算法和模型,未来将向更高效、更精准的方向发展。

2026-02-09 23:47:48 515

原创 CANN版本发布管理Release-Management的架构设计与版本管理技术深度解析

CANN的Release-Management是一个专为版本发布管理设计的系统,提供完整的版本规划、构建、测试和发布流程。其模块化架构包含四个核心组件:版本规划(需求/变更管理)、构建(代码/依赖管理)、测试(单元/性能测试)和发布(文档/回滚管理)。系统通过自动化CI/CD、容器化构建和智能测试监控实现高效版本发布,支持从需求收集到最终发布的完整生命周期管理。实际应用表明,该方案能显著提升发布效率(如示例中的8.0.0版本发布流程),未来将向AI智能规划、增强测试能力等方向演进,持续强化其在CAN

2026-02-09 23:45:21 458

原创 CANN空间智能优化样例CANN-Recipes-Spatial-Intelligence的架构设计与空间计算优化技术深度解析

CANN-Recipes-Spatial-Intelligence是华为CANN生态中针对空间智能应用设计的优化解决方案。该仓库包含378个stars和112个forks,采用模块化架构设计,分为空间感知、推理、优化和样例四大模块,支持点云处理、深度估计、三维重建等核心功能。通过内存优化、计算优化和精度优化等技术,显著提升空间智能应用的推理性能。该方案提供简洁易用的样例代码,可应用于自动驾驶、AR/VR等多个领域,实现了高性能与高精度的平衡。

2026-02-09 23:44:22 484

原创 CANN向量算子库Atvoss的架构设计与向量计算优化技术深度解析

Atvoss是CANN生态中专门为向量计算设计的高性能算子库,提供基础向量运算、矩阵运算和高级算子功能。其模块化架构包含基础算子、高级算子、优化和接口四大核心组件,通过SIMD指令、多线程并行等技术实现深度优化。Atvoss支持Python/C++接口,具有元素级运算、归约操作、广播运算等特性,显著提升向量计算性能。该项目活跃度较高,未来将扩展更多算子类型和硬件支持,持续优化计算效率,为开发者提供强大的向量计算解决方案。

2026-02-09 23:41:46 550

原创 CANN原生Numpy库AsNumpy的架构设计与数值计算优化技术深度解析

本文深度解析了CANN原生Numpy库AsNumpy的架构设计与优化技术。AsNumpy提供与标准Numpy兼容的接口,同时针对CANN硬件进行深度优化,包含数组模块、计算模块、优化模块和兼容模块四大核心组件。通过向量化优化、并行计算和内存优化等关键技术,显著提升了数值计算性能。文章还展示了AsNumpy的实际应用示例,并展望了其未来发展方向,包括功能扩展、性能优化和设备支持等。作为CANN生态的重要组件,AsNumpy为开发者提供了高效易用的数值计算解决方案。

2026-02-09 23:40:39 644

原创 CANN推理优化样例CANN-Recipes-Harmony-Infer的架构设计与系统推理优化技术深度解析

CANN-Recipes-Harmony-Infer是针对鸿蒙系统的AI推理优化解决方案,提供模型压缩、量化、剪枝等优化技术。该架构包含模型优化、推理执行、系统适配和样例四大模块,通过内存复用、算子优化、功耗监控等策略提升性能。项目在GitHub上活跃度高,支持图像分类、目标检测等应用场景,未来将扩展更多优化算法和设备支持。开发者可通过简洁API实现高效推理,显著提升鸿蒙设备上的AI性能表现。

2026-02-09 23:39:22 661

原创 CANN通信库:分布式训练的梯度同步

本文介绍了CANN通信库中分布式训练的梯度同步技术。主要内容包括梯度同步的原理和类型概述,重点分析了参数服务器同步和环形全归约同步两种策略的实现方法。通过示例代码展示了参数服务器的创建、梯度推送/拉取/更新操作,以及环形全归约同步器的创建和执行过程。文章旨在帮助开发者理解梯度同步机制,掌握在CANN生态中进行高效分布式训练的开发技巧。

2026-02-07 00:21:07 155

原创 CANN生态安全保障:cann-security-module的访问控制

本文介绍了CANN生态中cann-security-module的访问控制机制。该模块通过身份认证、权限分配、访问检查和访问审计四个步骤实现系统安全保护。文章详细解析了用户认证和令牌认证两种认证方式,包括用户信息结构体定义、密码哈希生成、令牌管理等核心功能实现代码。该安全模块支持多种访问控制类型,为AI系统提供完善的安全保障。

2026-02-07 00:19:09 214

原创 CANN模型部署:model-zoo的模型转换技术

摘要 本文深入探讨了CANN生态中model-zoo项目的模型转换技术。模型转换是AI部署的关键环节,涉及格式解析、结构转换、参数转换和格式生成四个核心原理。文章详细介绍了框架转换(如PyTorch/ONNX互转)、格式转换(如ONNX/OM互转)的具体实现方法,并分析了逐层转换和图优化转换两种策略。通过代码示例展示了转换过程中的关键操作,包括算子融合、常量折叠等技术。这些转换技术能够有效优化模型性能,简化部署流程,为开发者提供实用的模型转换开发指南。

2026-02-07 00:18:15 186

原创 CANN运行时核心:cann-runtime-core的任务调度策略

本文深入解析了CANN生态中cann-runtime-core的任务调度策略。主要内容包括:1) 任务调度原理,涵盖任务队列管理、调度算法、资源分配和负载均衡;2) 常见调度类型如先来先服务、短作业优先、优先级和公平调度;3) 具体调度算法实现,通过代码示例展示了先来先服务和优先级调度的实现细节。这些调度策略直接影响AI应用的性能表现,开发者可通过合理选择调度算法来优化计算资源利用率和任务执行效率。

2026-02-07 00:16:02 232

原创 CANN Infrastructure基础设施组件在CANN生态中的支撑作用

本文深入分析了CANN生态中的Infrastructure基础设施组件。作为CANN生态的基石,Infrastructure通过构建系统、测试框架、文档生成和CI/CD四大核心功能,为整个生态提供了全面的技术支撑。文章详细阐述了其分层架构设计、各功能模块的具体实现方式,以及与其他CANN组件的深度集成关系。通过实际应用案例展示了Infrastructure在提升构建效率(减少60%构建时间)和测试覆盖率(提高50%)方面的显著效果,并提供了使用最佳实践建议。Infrastructure的高效性和可靠性使其成

2026-02-07 00:14:53 205

原创 CANN Ops-Search搜索算法算子库在搜索任务中的高效实现

CANN Ops-Search搜索算法算子库为搜索任务提供高效计算单元支持。该库采用分层架构设计,包含索引构建、查询处理、相关性计算和结果排序四大核心模块。索引构建支持倒排索引、向量索引和图索引等多种类型;查询处理实现查询解析、扩展和重写功能;相关性计算涵盖TF-IDF、BM25和向量相似度等算法;结果排序提供多样化排序策略。通过与其他CANN组件的深度集成,Ops-Search已成功应用于文本搜索、图像搜索和推荐系统等多个场景,显著提升了搜索任务的执行效率和精度。

2026-02-07 00:12:45 225

原创 CANN Ops-Recommendation推荐系统算子库在推荐任务中的高效实现

Ops-Recommendation是CANN提供的推荐系统算子库,通过高效实现各类推荐算子,为推荐任务提供基础计算单元支持。该库采用分层架构设计,包含特征工程、模型训练、在线推理和离线评估四大核心模块,覆盖特征交叉、损失计算、召回排序等关键环节。与CANN生态深度集成,Ops-Recommendation已成功应用于电商、内容、广告等推荐场景,通过优化的算法实现和硬件适配,显著提升了推荐系统的计算效率和精度。

2026-02-07 00:11:46 249

原创 CANN Ops-NLP自然语言处理算子库在文本处理任务中的高效实现

Ops-NLP是CANN提供的自然语言处理算子库,通过分层架构设计实现了文本处理的高效实现。该库包含文本预处理、特征提取、序列建模和文本生成四大核心模块,支持分词、编码、注意力计算、RNN/LSTM等多种算子。Ops-NLP深度集成于CANN生态,提供优化API接口,在BERT等模型应用中实现了3倍以上的性能提升。通过合理的算法选择和算子组合,该库为文本分类、机器翻译等NLP任务提供了高效解决方案。

2026-02-07 00:10:41 297

原创 CANN Ops-CV图像处理算子库在计算机视觉任务中的高效实现

在计算机视觉任务中,图像处理算子是基础的计算单元。从图像预处理到特征提取,从目标检测到图像分割,图像处理算子的性能直接决定了视觉任务的执行效率。Ops-CV作为CANN提供的图像处理算子库,实现了各种图像处理算子的高效实现。本文将深入分析Ops-CV的技术架构、核心算子实现以及在计算机视觉任务中的高效实现。

2026-02-07 00:09:34 371

原创 CANN OAM-Tools故障定位工具在模型调试与问题排查中的应用

本文介绍了CANN OAM-Tools故障定位工具在AI模型调试与问题排查中的应用。该工具通过故障检测、分析、诊断和恢复四个维度构建了完整的定位体系,支持运行时检测、静态分析、日志分析等多种技术。文章详细解析了OAM-Tools的分层架构设计、核心故障定位机制及其与CANN生态的深度集成,展示了该工具在模型调试、性能调优等场景中的实际应用价值,能显著提升故障定位和恢复效率。

2026-02-07 00:08:33 263

原创 CANN AMCT模型压缩工具在模型优化与部署中的应用

AMCT模型压缩工具应用摘要 AMCT(Ascend Model Compression Toolkit)是CANN提供的模型压缩工具,通过量化、剪枝、蒸馏等技术优化AI模型部署。该工具采用分层架构设计,支持量化感知训练、训练后量化、混合精度量化等多种压缩方法,同时提供结构化剪枝、非结构化剪枝等剪枝技术。AMCT与CANN生态深度集成,已成功应用于移动端、边缘计算和云端推理等场景,如BERT模型压缩案例中实现75%大小缩减和4倍推理加速。该工具通过统一的接口简化了模型压缩复杂性,显著提升了模型部署效率和可行

2026-02-06 19:52:05 132

原创 CANN Asc-DevKit算子开发语言在自定义算子开发中的高效实现

本文介绍了CANN Asc-DevKit算子开发语言在自定义算子开发中的高效实现。Asc-DevKit通过分层架构设计,提供语言核心层、库函数层和工具链层,支持多种编程范式。其核心特性包括丰富的类型系统、控制流和函数定义,并提供了优化的算术、内存和同步函数库。文章展示了Asc-DevKit与CANN生态的深度集成,以及在实际应用中的显著性能提升(如自定义激活函数开发效率提升70%以上)。通过合理使用类型系统、库函数和工具链,开发者能够高效实现高性能自定义算子。

2026-02-06 19:50:37 238

原创 CANN Ops-Math数学算子库在科学计算与深度学习中的高效实现

摘要:CANN Ops-Math数学算子库为AI计算提供高效数学运算支持,涵盖基础算术、线性代数、特殊函数和随机数生成四大核心功能。该库采用分层架构设计,通过优化算法实现和硬件适配,支持FP32/FP16/BF16/INT8等多种数据类型,显著提升计算效率。Ops-Math已成功应用于科学计算、深度学习和图像处理等领域,在大规模矩阵乘法等场景中实现4倍以上的性能提升。作为CANN生态的重要组成部分,Ops-Math通过丰富的API接口与其他组件深度集成,为用户提供端到端的数学计算解决方案。

2026-02-06 19:49:38 241

原创 CANN HCOMM通信基础库在分布式系统中的通信管理技术

HCOMM是CANN生态中的核心通信基础库,为分布式系统提供高效的通信管理能力。它采用分层架构设计,包含通信管理、资源管理和性能优化三大核心机制,支持多种通信模式。通过内存池、连接池等资源复用技术降低开销,结合零拷贝、RDMA等优化手段提升性能。HCOMM已成功应用于分布式训练、参数服务器等场景,显著降低通信延迟。该库与CANN其他组件深度集成,提供完整的API接口和完善的文档支持,是构建高性能分布式系统的关键基础设施。

2026-02-06 19:47:27 189

原创 CANN Graph-Autofusion自动算子融合在模型优化中的性能提升技术

摘要:Graph-Autofusion是CANN提供的自动算子融合工具,通过分析计算图自动识别可融合算子模式并执行优化。该工具采用分层架构设计,包含融合分析、策略选择和执行优化三个核心环节。融合分析通过模式识别、依赖分析和收益评估确定优化机会;融合策略支持水平、垂直和混合三种融合方式;执行阶段实现算子合并、内存优化和调度优化。该技术能显著减少内存访问和同步开销,提升模型性能,相比传统手动融合方法具有更高效率和更优性能表现。

2026-02-06 19:46:32 278

原创 CANN GE图引擎编译器与执行器在模型编译优化中的核心技术

本文深入分析了CANN中GE图引擎编译器与执行器的核心技术。GE采用分层架构设计,通过图构建、图优化和图执行三大机制实现高效的模型编译与执行。图构建完成模型解析与转换,图优化运用算子融合、常量折叠等技术提升性能,图执行负责调度与内存管理。GE与CANN其他组件深度集成,在BERT等模型应用中实现3倍以上的性能提升。文章还提供了编程最佳实践指导,帮助开发者充分发挥GE的性能优势。

2026-02-06 19:45:10 230

原创 CANN PTO-ISA并行分块操作指令集架构在硬件加速中的核心作用

PTO-ISA是CANN提供的并行分块操作指令集架构,为AI处理器提供高效的硬件加速接口。该架构采用分层设计,包含算术、逻辑、控制、内存等核心指令类型,支持向量、矩阵和张量运算。PTO-ISA与CANN生态深度集成,可显著提升算子性能(如卷积算子性能提升5倍)。通过合理的指令选择和优化序列,开发者能充分利用硬件计算能力。该架构还提供扩展接口和丰富文档支持,降低了学习和使用门槛。随着CANN生态发展,PTO-ISA将持续演进,为AI计算提供更强大的硬件加速能力。

2026-02-06 19:44:17 262

原创 CANN Runtime运行时组件在AI模型执行中的核心作用与技术解析

CANN Runtime作为AI模型执行的核心运行时组件,承担模型加载、内存管理、算子调度和执行监控等关键功能。其分层架构设计包含模型管理层(支持热更新/回滚)、内存管理层(实现高效内存复用)、算子调度层(支持多种并行模式)和执行监控层(性能/错误/日志监控)。Runtime通过优化的执行策略与资源管理机制,为CANN生态提供统一的模型执行接口,并与GE、HCCL等组件深度集成,形成端到端的AI模型执行解决方案。其开源仓库地址为https://atomgit.com/cann/runtime。

2026-02-06 19:42:46 545

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除