通过Intel® AI硬件和软件优化加速Llama 2

目录

Habana Gaudi2*深度学习加速器

Intel ® Xeon®可扩展处理器

Intel®数据中心GPU Max系列

总结


我们很高兴看到Meta发布Llama 2,旨在进一步实现对大型语言模型(LLM)的访问民主化。我们相信,让这些模型更广泛地可用将促进整个人工智能社区的努力,以造福整个世界。LLM提供了最有前途的人工智能技术之一,以造福社会,因为它们在生成文本、总结和翻译内容、回答问题、参与对话和执行更复杂的任务(例如解决数学问题或推理)方面表现出了非凡的能力。LLM有可能解锁新形式的创造力和洞察力,并激发AI社区推动技术发展的热情。

Llama 2旨在帮助开发人员、研究人员和组织构建生成式AI驱动的工具和体验。Meta发布了具有7B13B70B参数的Llama 2预训练和微调版本。借助Llama 2Meta在公司的微调模型中实施了三种核心安全技术:监督安全微调、有针对性的安全上下文蒸馏和从人类反馈中进行安全强化学习。这使Meta能够提高安全性能。通过使获取民主化,它将允许以透明和公开的方式不断识别和缓解脆弱性。

Intel提供一系列AI解决方案,为社区开发和运行Llama 2等模型提供具有竞争力和引人注目的选择。Intel丰富的硬件产品组合与优化的开放软件相结合,提供了替代方案,以减轻访问有限计算资源的挑战。随着Llama 2的发布,我们很高兴与大家分享Intel AI产品组合中7B13B参数模型的初始推理性能,包括Habana Gaudi2*深度学习加速器、第4Intel® Xeon®可扩展处理器、Intel® Xeon® CPU Max系列和Intel®数据中心GPU Max。我们在这里分享的结果是针对我们当前发布的软件的开箱即用性能,预计在即将发布的版本中会有额外的性能提升。我们还启用了70B参数模型,并将在不久后提供更新,以便让社区了解情况。

Habana Gaudi2*深度学习加速器

Habana Gaudi2旨在提供高性能、高效率的训练和推理,特别适用于大型语言模型,例如LlamaLlama 2。每个Gaudi2加速器都具有96 GB的片上HBM2E,以满足LLM的内存需求,从而加速推理性能。Gaudi2Habana SynapseAI*软件套件支持,该套件集成了PyTorch*DeepSpeed*,用于训练和推理。此外,SynapseAI最近引入了对 HPU图形 DeepSpeed推理的支持,这些非常适合延迟敏感的推理应用程序。Gaudi2将进行进一步的软件优化,包括在2023年第三季度支持FP8数据类型,预计这将带来大幅的性能提升、提高吞吐量并减少LLM执行的延迟。

LLM的性能需要灵活灵活的可扩展性,以减少服务器内部和节点之间的网络瓶颈。每个Gaudi2集成了24100 GB以太网端口;21个端口可以专用于与服务器内的8Gaudi2进行全对多连接,每个Gaudi23个端口专用于横向扩展。此网络配置有助于提高服务器内外的扩展性能。

在最近发布的MLPerf* 基准测试中,Gaudi2384Gaudi2加速器上训练175B参数GPT-3模型,在大型语言模型上表现出出色的训练性能。(有关更多信息,请参阅新的MLCommons结果突出了Intel令人印象深刻的竞争性AI 收益。在Gaudi2上经过验证的性能使其成为LlamaLlama 2训练和推理的高效解决方案。

下面,我们分别分享Llama 2 7BLlama 2 13B模型在单个Habana Gaudi2设备上的推理性能,批量大小为1,输出令牌长度为256,使用混合精度(BF16)的各种输入令牌长度。报告的性能指标是每个令牌(不包括第一个令牌)的延迟。使用optinum-habana text generation scriptLlama模型进行推理。Hugging Face optimum-habana 库使部署这些模型变得简单易行,只需在Gaudi加速器上更改代码最少。在1 中,我们看到,对于1282K的输入令牌,7B模型的Gaudi2推理延迟范围为每个令牌9.012.2毫秒,而对于13B模型,每个令牌的推理延迟范围为15.520.4毫秒。(硬件和软件配置详细信息包含在本文末尾。

1.Hábana Gaudi2 上的 Llama 2 7B 13B 推理性能*

立即在 Habana Gaudi 平台上使用 Llama 2 开始您的生成式 AI 之旅。如果您想访问 Gaudi2,请在Intel®开发人员云上注册一个实例,或联系 Supermicro 了解 Gaudi2 服务器基础设施。

Intel ® Xeon®可扩展处理器

第4代Intel Xeon可扩展处理器是通用计算,具有注入AI的加速功能,称为Intel®高级矩阵扩展(Intel® AMX)。具体来说,它在每个内核中都内置了BF16INT8 GEMM(通用矩阵-矩阵乘法)加速器,以加速深度学习训练和推理工作负载。此外,Intel Xeon CPU Max系列在两个插槽中提供128 GB的高带宽内存(HBM2E),这对LLM非常有益,因为工作负载通常受内存带宽限制。

Intel Xeon处理器的软件优化已上游到深度学习框架中,并在PyTorchTensorFlow*DeepSpeed和其他AI库的默认发行版中提供。Intel领导了torch.compileCPU后端的开发和优化,这是 PyTorch 2.0 的旗舰功能。Intel提供面向PyTorch的Intel®扩展,以便在Intel® CPU上游进入官方PyTorch发行版之前对其进行高级优化。

4Intel Xeon处理器具有更高的内存容量,可在单个插槽内实现低延迟LLM执行,适用于对话式AI和文本摘要应用程序。此评估突出显示了BF16INT8的每个插槽每个插槽执行一个模型的延迟。面向PyTorch的Intel扩展模块支持 SmoothQuant,以确保INT8精度模型的良好精度。

考虑到LLM应用程序需要足够快地生成令牌以满足快速阅读器的读取速度,我们选择令牌延迟(生成每个令牌的时间)作为要报告的主要性能指标,并作为参考,快速人类阅读器的读取速度,即每个令牌~100毫秒。2和图3显示,第4Intel Xeon可扩展单插槽处理器为Llama 2 7B BF16型号和Llama 2 13B INT8型号提供<100毫秒的延迟。

2.Intel® Xeon®可扩展处理器上的Llama 2 7B13B推理(Bfloat16)性能

3.Intel® Xeon®可扩展处理器上的Llama 2 7B13B推理(INT8)性能

IntelXeon CPU Max系列为两种型号提供更低的延迟,这得益于HBM2E更高的带宽。借助Intel AMX加速,客户可以通过更高的批量大小提高吞吐量。一个第4Intel Xeon处理器为7B13B参数型号提供<100毫秒的延迟。用户可以运行两个并行实例,每个套接字一个,以获得更高的吞吐量并独立为客户端提供服务。或者,用户可以利用面向 PyTorch的Intel扩展模块 DeepSpeed 在第四代Intel Xeon处理器上运行推理,使用张量并行性来进一步减少延迟或支持更大的模型。

开发人员可以在此处获取有关在IntelXeon平台上运行LLMLlama 2的更多详细信息。第四代IntelXeon可扩展处理器的云实例可在AWS*GCP*Azure*上预览,并在阿里云上正式发布。Intel将继续向PyTorchDeepSpeed添加软件优化,以进一步加速Llama 2和其他LLM

Intel®数据中心GPU Max系列

Intel数据中心GPU Max提供并行计算、HPCAI,以实现HPC加速。Intel数据中心GPU Max系列是Intel性能最高、密度最高的独立GPU,将超过1000亿个晶体管封装到一个封装中,包含多达128Intel® Xe内核,是Intel的基础GPU计算构建块。

Intel数据中心GPU Max系列旨在为AIHPC中使用的数据密集型计算模型提供突破性的性能,包括:

  • 408 MB基于分立式SRAM技术的L2缓存和64 MB L1缓存和高达128 GB的高带宽内存(HBM2E)
  • 具有脉动阵列的AI增强型Intel® Xe矩阵扩展(XMX),可在单个设备中实现矢量和矩阵功能

Intel Data Center Max系列产品由oneAPI统一,提供通用、开放、基于标准的编程模型,以释放生产力和性能。Intel ® oneAPI工具包括高级编译器、库、分析器和代码迁移工具,可轻松迁移CUDA*代码以使用SYCL*打开C++

Intel数据中心Max GPU的软件支持和优化是通过当今框架的开源扩展提供的,例如面向PyTorchIntel扩展、面向TensorFlowIntel®扩展和面向DeepSpeedIntel®扩展。通过将这些扩展与上游框架版本结合使用,用户将能够实现机器学习工作流的直接加速。

Llama 2 7B13B参数模型的推理性能是在600W OAM设备上评估的,该设备在封装上有两个GPU(瓦片),而我们只使用其中一个瓦片来运行推理。4 显示,对于322K令牌的输入令牌长度,Intel数据中心GPU Max单个图块在推理7B模型时每个令牌延迟不到20毫秒,在13B模型推理中,每个令牌延迟可提供29.233.8毫秒。用户可以运行两个并行实例,每个切片一个实例,以提高吞吐量并独立为客户端提供服务。

4.Llama 2 7B13BIntel®数据中心GPU Max 1550上的推理性能

客户可以在此处获取有关在Intel数据中心GPU平台上运行LLMLlama 2的更多详细信息。Intel开发人员云上提供的Intel数据中心GPU Max云实例目前处于测试阶段。

除了推理之外,Intel还积极致力于加速微调,方法是将优化上游到Hugging Face TransformersPEFT、Accelerate  Optimum 库,并在 Intel® Extension for Transformer 中提供参考工作流程,以支持在支持的Intel平台上高效部署基于LLM的典型任务,例如文本生成、代码生成、完成和总结。

总结

在本文中,我们介绍了Intel AI 硬件产品组合中Llama 2 7B13B参数模型的推理性能初步评估,包括Habana Gaudi2深度学习加速器、第4IntelXeon可扩展处理器、IntelXeon CPU Max系列和Intel数据中心GPU Max。我们将继续在软件版本中添加优化,并将很快分享有关LLM和更大的Llama 2模型的更多评估。

本文最初发表于 https://www.intel.com/content/www/us/en/developer/articles/technical/accelerate-llama2-ai-hardware-sw-optimizations.html?cid=other&source=devmed_synd_ih&campid=ww_q4

https://www.codeproject.com/Articles/5372101/Accelerate-Llama-2-with-Intel-AI-Hardware-and-Soft

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值