高通云AI 100开发者指南(二)

1.2.2.4 设备管理的Qmonitor

  Qmonitor是一个客户端-服务器工具,提供基础设施来配置和获取云端AI 100设备的状态信息。与Qmonitor的主要接口是协议缓冲区。它是使用Protocol Buffer 3构建的,允许为任何支持的语言生成客户端的绑定 - 包括C++和Python。
  Qmonitor支持封装服务,用于直接消息(命令-响应)或异步服务(注册和接收异步回调)。

  Qmonitor可用于:

   设备信息/配置(资产跟踪、资源可用性/利用率、热量等)
   设备控制(重置)
   RAS(内存、I/O)
   日志记录
   Sysmon性能监控

1.3 编译/执行模式

  应用程序和平台SDK在x86平台上支持JIT或AOT编译/执行,而在Arm aarch64平台上只支持AOT编译/执行。由于在aarch64平台上缺乏应用程序SDK的支持,因此无法在Arm aarch64上进行JIT编译/执行。
图5 JIT 和AOT 编译/执行

(图5 JIT 和AOT 编译/执行)
  在JIT模式下,编译和执行紧密耦合,并且需要在同一系统/虚拟机上安装应用程序和平台SDK。此模式仅支持x86平台。

  在AOT模式下,编译和执行是解耦的。网络可以提前在x86上进行编译(仅使用Apps SDK),并且编译后的网络可以部署在x86或Arm aarch64平台上(需要安装Platform SDK)。

1.5 平台硬件架构

  该平台由一个连接到一个或多个云端AI 100加速卡的Arm/x86 CPU组成,连接方式通过PCIe总线,中间可以有或没有PCIe交换机。一个基于Linux的主机CPU运行应用程序、运行时库和内核驱动程序,以便与云端AI 100 AI加速卡通信并在其上运行推理工作负载。
  每张云端AI 100卡都有一个SMBus端口,用于与底板管理控制器(BMC)通信。

1.6 SoC架构

  AIC100 SoC是一个高性能、低功耗的系统,专门用于云端和边缘的深度学习推理。它是一个高度可扩展且能效高的SoC,可以应用于各种热设计功率(TDP)应用中。AIC100 SoC具有以下关键特性:

   同构多核架构,最多包含16个相同的AI核心,这些核心也被称为神经信号处理(NSP)核心
    从应用开发者的角度来看,NSP是最小的计算单元。
    每个AI核心由一个标量处理单元、四个矢量处理单元、一个双矩阵处理单元和一个所有三个处理单元都可以访问的矢量紧耦合片上内存(VTCM)组成:
     标量处理单元——多线程标量核心,具有丰富的指令集;支持FP32、FP16、Int16和Int8精度
     矢量处理单元——具有丰富的AI、计算机视觉和图像处理指令集;支持FP32、FP16、Int16和Int8精度
     矩阵处理单元——用于线性代数(MAC单元)的高性能且低功耗的加速器;支持FP16和Int8精度
   一个管理控制器(QSM)
   峰值TOPS
    400+ Int8, 200+ FP16
   最多144 MB的片上内存
    减少DDR内存带宽和功耗
    支持许多网络权重的片上存储
   高速片上网络(支持多播)
    允许在AI核心之间分割深度学习网络操作
    深度学习网络的激活通过多播共享
   8通道PCIe Gen4接口连接到主机CPU
   带宽高达136 GB/s的LPDDR4x内存
   安全启动
   可靠性——ECC
   电源管理——瞬态、峰值、热管理
图8 AIC100 soc块图

(图8 AIC100 soc块图)
  • 12
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值