机器学习领域技术大图:硬件算力

简介:硬件算力可以说在人工智能三要素中处于发动机的角色,特别是深度学习在最近 10 年之所以获得突飞猛进的发展,很大程度得益于硬件算力在摩尔定律的驱动下获得持续的增长,如 GPU 在最近 10 年的理论算力获得了近几十倍的性能提升。所以,硬件算力也是阿里在人工智能技术领域的重中之重,并进行了重点布局和持续的技术研发投入,我们的技术核心战略是“通过建设核高基领域的研发能力,提供极致性价比的算力供给,奠定阿里云在 IaaS/PaaS 层具备产品易用性、多样性和差异化服务的能力”。

AI 集群旨在获得更高的 AI 集成算力,扮演着“承上启下“的角色,“承上”是指向 AI 应用提供的有效集成算力,高集成算力是支撑 AI 大模型和海量数据量的使能能力。而“启下”是指通过集群的计算、网络、存储平衡设计来充分发挥 AI 计算芯片能力,例如访存或网络瓶颈都会导致较低的 AI 芯片效率。AI 集群设计的关键在于:

  • 1)单机:计算优化,软硬件协同优化发挥 AI 加速器有效算力。
  • 2)多机:通信优化,最小化多机数据交换引入的计算效率损耗。我们将从单机加速和集群加速(多机)两个方面介绍相关技术和系统。

首先,我们将从计算和互联两个技术点对阿里现有的技术栈进行全面的阐述。

计算技术

神龙服务器和神龙虚拟化技术

在阿里云神龙硬件平台下,虚拟化架构也做了相应的升级,使计算虚拟化部分的架构更加清晰简洁,让虚拟机能提供接近物理机的性能。如图所示,神龙服务器架构的主要特点是:I/O 链路从传统的软件实现转变为硬件和直通设备来实现,存储虚拟化、网络虚拟化都在 MOC 卡上来实现;同时将管控系统、监控程序等都下沉到 MOC 卡上。在提供计算服务的物理机上,只运行阿里云自己裁剪的 Linux 操作系统和轻量化的虚拟机监控器。总的来说,神龙硬件平台的底座,加上轻量化的宿主机 OS,再加上轻量化的虚拟机监控器,就组成了神龙架构下的轻薄且高效的新一代虚拟化平台。

GPU

CPU 执行 AI 计算往往并不能达到最优的性价比,因此,具有海量并行计算能力、能够加速 AI 计算的 AI 芯片应运而生。当前最具代表的是 GPU、FPGA 和 AI ASIC 芯片。GPU 仍然是当前最成熟也是最广泛使用的加速器,阿里巴巴上层框架针对 GPU 做了大量的编译优化工作。GPU 在阿里巴巴得到了广泛的部署,也是云上 AI 算力售卖的主力,我们已经能做到基于 GPU 的云产品与最新一代 GPU 同步发布。在云上 GPU 的安全性,可运维性,用户体验上我们都走在业界的前列。在于通用计算可运维性在 GPU 虚拟化场景下的热升级能力,居于业界第一;是业界首个发布基于 SRIOV 的 GPU 热迁移技术预研的云厂商。在业界首个实现基于 GRID 的 vGPU 技术在云上输出,引导了 vGPU 云化的技术趋势,并且为 5G 时代的云游戏铺垫了 GPU 计算基础设施。

GPU 的训练芯片一直引领着 GPU 技术发展的趋势,除了基础 FP32 算力的高速增长之外,通过精度的变化大幅度提高算力,比如 Tensorcore 是另外一个算力提升趋势;另外,由于多卡,多机的通信的需求,GPU 的通信经历了 PCIE P2P 技术,基于 NVLink 的高速通信技术,以及通过 RDMA 网络的 GPUDirect RDMA 技术。而在阿里云上,由于多租户之间需要进行算力共享,在不同的通信模式下,如何进行算力分割和通信的隔离,是一个阿里云一直研究的技术,包括最新的基于 NVSwitch 的 NVLink 全连接场景下的可编程拓扑分割技术等。

FPGA

FPGA 器件自诞生之初,就以高度灵活的可编程性提供类 ASIC 的性能和能效比而广泛应用于有线和无线通信、航空航天、医疗电子和汽车电子等领域。但是,相比 CPU 和 GPU,FPGA 的开发周期较长(尽管只有 ASIC

  • 28
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值