华为昇腾Ascend系列之 07 昇腾AI集群支持千卡还是万卡（教程含源码Ascend 910、Ascend 910B）

最新推荐文章于 2024-08-10 21:26:27 发布

知识大胖

最新推荐文章于 2024-08-10 21:26:27 发布

阅读量168

点赞数

分类专栏：国产操作系统、数据库、中间件、GPU教程文章标签：华为人工智能

本文链接：https://blog.csdn.net/iCloudEnd/article/details/139418039

版权

国产操作系统、数据库、中间件、GPU教程专栏收录该内容

40 篇文章 68 订阅 ¥79.90 ¥99.00

订阅专栏

本文探讨华为昇腾AI集群在应对AI落地的平台建设、模型开发和推理部署挑战时的能力，强调昇腾AI集群已从4000卡扩展至16000卡，成为业界首个万卡AI集群。昇腾AI处理器如910，基于华为达芬奇架构，提供强大的算力。集群支持参数面无阻塞RoCE组网，实现大规模工程化部署，保障高稳定性和能效。

摘要由CSDN通过智能技术生成

实战需求

本文提供了一个简单的模型迁移样例，采用了最简单的自动迁移方法，帮助用户快速体验GPU模型脚本迁移到昇腾NPU上的流程，将在GPU上训练CNN模型识别手写数字的脚本代码进行修改，使其可以迁移到昇腾NPU上进行训练。

基础知识

昇腾（HUAWEI Ascend）310 是一款高能效、灵活可编程的人工智能处理器，在典型配置下，半精度（FP16）算力达到 16 TFLOPS，整数精度（INT8）算力达到 8 TOPS，功耗仅为 8W。采用自研华为达芬奇架构，集成丰富的计算单元，提高 AI 计算完备度和效率，进而扩展该芯片的适用性。全 AI 业务流程加速，大幅提高 AI 全系统的性能，有效降低部署成本。

昇腾（HUAWEI Ascend）910 是业界算力最强的 AI 处理器，基于自研华为达芬奇架构 3D Cube 技术，实现业界最佳 AI 性能与能效，架构灵活伸缩，支持云边端全栈全场景应用。算力方面，昇腾 910 完全达到设计规格，半精度（FP16）算力达到 320TFLOPS，
整数精度（INT8）算力达到 640 TOPS，功耗 310W。

了解本专栏