亚马逊云科技基础设施为大型模型推理提供技术保障

生活博谈

于 2023-05-17 12:01:37 发布

阅读量148

点赞数

文章标签： ddos xml webview

本文链接：https://blog.csdn.net/m0_71839360/article/details/130722889

版权

亚马逊云科技发布了Inferentia2芯片和Inf2实例，为大型模型推理提供技术支持。Inf2实例提供高达2.3 petaflops的DL性能，配备NeuronCores-v2，支持多种数据类型和动态执行。Neuron SDK与PyTorch和TensorFlow等框架集成，优化模型性能，NeuronLink v2则实现了分布式推理。

摘要由CSDN通过智能技术生成

在2019年的亚马逊云科技re:Invent上，亚马逊云科技发布了新的基础设施Inferentia芯片和Inf1实例。Inferentia是一种高性能机器学习推理芯片，由亚马逊云科技定制设计，其目的是提供具有成本效益的大规模低延迟预测。时隔四年，2023年4月亚马逊云科技发布了Inferentia2芯片和Inf2实例，旨在为大型模型推理提供技术保障。

Inf2实例提供高达2.3 petaflops的DL性能和高达384 GB的总加速器内存以及9.8 TB/s的带宽。亚马逊云科技Neuron SDK与PyTorch和TensorFlow等流行的机器学习框架原生集成。因此，用户可以继续使用现有框架和应用程序代码在Inf2上进行部署。开发人员可以在AWS Deep Learning AMI、AWS Deep Learning容器或Amazon ECS、Amazon EKS和Amazon SageMaker等托管服务中使用Inf2实例。

Amazon EC2 Inf2实例的核心是亚马逊云科技Inferentia2设备，每个设备包含两个NeuronCores-v2。每个NeuronCore-v2都是一个独立的异构计算单元，具有四个主要引擎：张量（Tensor）、向量（Vector）、标量（Scalar）和GPSIMD引擎。张量引擎针对矩阵运算进行了优化。标量引擎针对ReLU（整流线性单元）函数等元素运算进行了优化。向量引擎针对非元素向量操作进行了优化，包括批量归一化或池化。

亚马逊云科技Inferentia2支持多种数据类型

最低0.47元/天解锁文章

生活博谈

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
亚马逊云科技基础设施为大型模型推理提供技术保障

亚马逊云科技Neuron是一种SDK，可优化在亚马逊云科技Inferentia和Trainium上执行的复杂神经网络模型的性能。亚马逊云科技Neuron包括深度学习编译器、运行时和工具，这些工具与TensorFlow和PyTorch等流行框架原生集成，它预装在亚马逊云科技Deep Learning AMI和Deep Learning Containers中，供客户快速开始运行高性能且经济高效的推理。它还支持新的可配置FP8（cFP8）数据类型，这与大型模型特别相关，因为它减少了模型的内存占用和I/O要求。
复制链接

扫一扫