通过Intel® AI硬件和软件优化加速Llama 2

我们很高兴看到Meta发布Llama 2，旨在进一步实现对大型语言模型（LLM）的访问民主化。我们相信，让这些模型更广泛地可用将促进整个人工智能社区的努力，以造福整个世界。LLM提供了最有前途的人工智能技术之一，以造福社会，因为它们在生成文本、总结和翻译内容、回答问题、参与对话和执行更复杂的任务（例如解决数学问题或推理）方面表现出了非凡的能力。LLM有可能解锁新形式的创造力和洞察力，并激发AI社区推动技术发展的热情。

Llama 2旨在帮助开发人员、研究人员和组织构建生成式AI驱动的工具和体验。Meta发布了具有7B、13B和70B参数的Llama 2预训练和微调版本。借助Llama 2，Meta在公司的微调模型中实施了三种核心安全技术：监督安全微调、有针对性的安全上下文蒸馏和从人类反馈中进行安全强化学习。这使Meta能够提高安全性能。通过使获取民主化，它将允许以透明和公开的方式不断识别和缓解脆弱性。

Intel提供一系列AI解决方案，为社区开发和运行Llama 2等模型提供具有竞争力和引人注目的选择。Intel丰富的硬件产品组合与优化的开放软件相结合，提供了替代方案，以减轻访问有限计算资源的挑战。随着Llama 2的发布，我们很高兴与大家分享Intel AI产品组合中7B和13B参数模型的初始推理性能，包括Habana Gaudi2*深度学习加速器、第4代Intel® Xeon®可扩展处理器、Intel® Xeon® CPU Max系列和Intel®数据中心GPU Max。我们在这里分享的结果是针对我们当前发布的软件的开箱即用性能，预计在即将发布的版本中会有额外的性能提升。我们还启用了70B参数模型，并将在不久后提供更新，以便让社区了解情况。

Habana Gaudi2*深度学习加速器

Habana Gaudi2旨在提供高性能、高效率的训练和推理，特别适用于大型语言模型，例如Llama和Llama 2。每个Gaudi2加速器都具有96 GB的片上HBM2E，以满足LLM的内存需求，从而加速推理性能。Gaudi2由Habana SynapseAI*软件套件支持，该套件集成了PyTorch*和DeepSpeed*，用于训练和推理。此外，SynapseAI最近引入了对 HPU图形和 DeepSpeed推理的支持，这些非常适合延迟敏感的推理应用程序。Gaudi2将进行进一步的软件优化，包括在2023年第三季度支持FP8数据类型，预计这将带来大幅的性能提升、提高吞吐量并减少LLM执行的延迟。

LLM的性能需要灵活灵活的可扩展性，以减少服务器内部和节点之间的网络瓶颈。每个Gaudi2集成了24个100 GB以太网端口;21个端口可以专用于与服务器内的8个Gaudi2进行全对多连接，每个Gaudi2有3个端口专用于横向扩展。此网络配置有助于提高服务器内外的扩展性能。

在最近发布的MLPerf* 基准测试中，Gaudi2在384个Gaudi2加速器上训练175B参数GPT-3模型，在大型语言模型上表现出出色的训练性能。（有关更多信息，请参阅新的MLCommons结果突出了Intel令人印象深刻的竞争性AI 收益。在Gaudi2上经过验证的性能使其成为Llama和Llama 2训练和推理的高效解决方案。

下面，我们分别分享Llama 2 7B和Llama 2 13B模型在单个Habana Gaudi2设备上的推理性能，批量大小为1，输出令牌长度为256，使用混合精度（BF16）的各种输入令牌长度。报告的性能指标是每个令牌（不包括第一个令牌）的延迟。使用optinum-habana text generation script对Llama模型进行推理。Hugging Face optimum-habana 库使部署这些模型变得简单易行，只需在Gaudi加速器上更改代码最少。在图1 中，我们看到，对于128到2K的输入令牌，7B模型的Gaudi2推理延迟范围为每个令牌9.0到12.2毫秒，而对于13B模型，每个令牌的推理延迟范围为15.5到20.4毫秒。（硬件和软件配置详细信息包含在本文末尾。

图 1.Hábana Gaudi2 上的 Llama 2 7B 和 13B 推理性能*

立即在 Habana Gaudi 平台上使用 Llama 2 开始您的生成式 AI 之旅。如果您想访问 Gaudi2，请在Intel®开发人员云上注册一个实例，或联系 Supermicro 了解 Gaudi2 服务器基础设施。

Intel ® Xeon®可扩展处理器

第4代Intel Xeon可扩展处理器是通用计算，具有注入AI的加速功能，称为Intel®高级矩阵扩展（Intel® AMX）。具体来说，它在每个内核中都内置了BF16和INT8 GEMM（通用矩阵-矩阵乘法）加速器，以加速深度学习训练和推理工作负载。此外，Intel Xeon CPU Max系列在两个插槽中提供128 GB的高带宽内存（HBM2E），这对LLM非常有益，因为工作负载通常受内存带宽限制。

Intel Xeon处理器的软件优化已上游到深度学习框架中，并在PyTorch、TensorFlow*、DeepSpeed和其他AI库的默认发行版中提供。Intel领导了torch.compile的CPU后端的开发和优化，这是 PyTorch 2.0 的旗舰功能。Intel还提供面向PyTorch的Intel®扩展，以便在Intel® CPU上游进入官方PyTorch发行版之前对其进行高级优化。

第4代Intel Xeon处理器具有更高的内存容量，可在单个插槽内实现低延迟LLM执行，适用于对话式AI和文本摘要应用程序。此评估突出显示了BF16和INT8的每个插槽每个插槽执行一个模型的延迟。面向PyTorch的Intel扩展模块支持 SmoothQuant，以确保INT8精度模型的良好精度。

考虑到LLM应用程序需要足够快地生成令牌以满足快速阅读器的读取速度，我们选择令牌延迟（生成每个令牌的时间）作为要报告的主要性能指标，并作为参考，快速人类阅读器的读取速度，即每个令牌~100毫秒。图2和图3显示，第4代Intel Xeon可扩展单插槽处理器为Llama 2 7B BF16型号和Llama 2 13B INT8型号提供<100毫秒的延迟。

图2.Intel® Xeon®可扩展处理器上的Llama 2 7B和13B推理（Bfloat16）性能

图3.Intel® Xeon®可扩展处理器上的Llama 2 7B和13B推理（INT8）性能

IntelXeon CPU Max系列为两种型号提供更低的延迟，这得益于HBM2E更高的带宽。借助Intel AMX加速，客户可以通过更高的批量大小提高吞吐量。一个第4代Intel Xeon处理器为7B和13B参数型号提供<100毫秒的延迟。用户可以运行两个并行实例，每个套接字一个，以获得更高的吞吐量并独立为客户端提供服务。或者，用户可以利用面向 PyTorch的Intel扩展模块和 DeepSpeed 在第四代Intel Xeon处理器上运行推理，使用张量并行性来进一步减少延迟或支持更大的模型。

开发人员可以在此处获取有关在IntelXeon平台上运行LLM和Llama 2的更多详细信息。第四代IntelXeon可扩展处理器的云实例可在AWS*、GCP*和Azure*上预览，并在阿里云上正式发布。Intel将继续向PyTorch和DeepSpeed添加软件优化，以进一步加速Llama 2和其他LLM。

Intel®数据中心GPU Max系列

Intel数据中心GPU Max提供并行计算、HPC和AI，以实现HPC加速。Intel数据中心GPU Max系列是Intel性能最高、密度最高的独立GPU，将超过1000亿个晶体管封装到一个封装中，包含多达128个Intel® Xe内核，是Intel的基础GPU计算构建块。

Intel数据中心GPU Max系列旨在为AI和HPC中使用的数据密集型计算模型提供突破性的性能，包括：

408 MB基于分立式SRAM技术的L2缓存和64 MB L1缓存和高达128 GB的高带宽内存（HBM2E）
具有脉动阵列的AI增强型Intel® Xe矩阵扩展（XMX），可在单个设备中实现矢量和矩阵功能

Intel Data Center Max系列产品由oneAPI统一，提供通用、开放、基于标准的编程模型，以释放生产力和性能。Intel ® oneAPI工具包括高级编译器、库、分析器和代码迁移工具，可轻松迁移CUDA*代码以使用SYCL*打开C++。

Intel数据中心Max GPU的软件支持和优化是通过当今框架的开源扩展提供的，例如面向PyTorch的Intel扩展、面向TensorFlow的Intel®扩展和面向DeepSpeed的Intel®扩展。通过将这些扩展与上游框架版本结合使用，用户将能够实现机器学习工作流的直接加速。

Llama 2 7B和13B参数模型的推理性能是在600W OAM设备上评估的，该设备在封装上有两个GPU（瓦片），而我们只使用其中一个瓦片来运行推理。图4 显示，对于32到2K令牌的输入令牌长度，Intel数据中心GPU Max单个图块在推理7B模型时每个令牌延迟不到20毫秒，在13B模型推理中，每个令牌延迟可提供29.2到33.8毫秒。用户可以运行两个并行实例，每个切片一个实例，以提高吞吐量并独立为客户端提供服务。

图4.Llama 2 7B和13B在Intel®数据中心GPU Max 1550上的推理性能

客户可以在此处获取有关在Intel数据中心GPU平台上运行LLM和Llama 2的更多详细信息。Intel开发人员云上提供的Intel数据中心GPU Max云实例目前处于测试阶段。

除了推理之外，Intel还积极致力于加速微调，方法是将优化上游到Hugging Face Transformers、PEFT、Accelerate 和 Optimum 库，并在 Intel® Extension for Transformer 中提供参考工作流程，以支持在支持的Intel平台上高效部署基于LLM的典型任务，例如文本生成、代码生成、完成和总结。

总结

在本文中，我们介绍了Intel AI 硬件产品组合中Llama 2 7B和13B参数模型的推理性能初步评估，包括Habana Gaudi2深度学习加速器、第4代IntelXeon可扩展处理器、IntelXeon CPU Max系列和Intel数据中心GPU Max。我们将继续在软件版本中添加优化，并将很快分享有关LLM和更大的Llama 2模型的更多评估。