目录
我们很高兴看到Meta发布Llama 2,旨在进一步实现对大型语言模型(LLM)的访问民主化。我们相信,让这些模型更广泛地可用将促进整个人工智能社区的努力,以造福整个世界。LLM提供了最有前途的人工智能技术之一,以造福社会,因为它们在生成文本、总结和翻译内容、回答问题、参与对话和执行更复杂的任务(例如解决数学问题或推理)方面表现出了非凡的能力。LLM有可能解锁新形式的创造力和洞察力,并激发AI社区推动技术发展的热情。
Llama 2旨在帮助开发人员、研究人员和组织构建生成式AI驱动的工具和体验。Meta发布了具有7B、13B和70B参数的Llama 2预训练和微调版本。借助Llama 2,Meta在公司的微调模型中实施了三种核心安全技术:监督安全微调、有针对性的安全上下文蒸馏和从人类反馈中进行安全强化学习。这使Meta能够提高安全性能。通过使获取民主化,它将允许以透明和公开的方式不断识别和缓解脆弱性。
Intel提供一系列AI解决方案,为社区开发和运行Llama 2等模型提供具有竞争力和引人注目的选择。Intel丰富的硬件产品组合与优化的开放软件相结合,提供了替代方案,以减轻访问有限计算资源的挑战。随着Llama 2的发布,我们很高兴与大家分享Intel AI产品组合中7B和13B参数模型的初始推理性能,包括Habana Gaudi2*深度学习加速器、第4代Intel® Xeon®可扩展处理器、Intel® Xeon® CPU Max系列和Intel®数据中心GPU Max。我们在这里分享的结果是针对我们当前发布的软件的开箱即用性能,预计在即将发布的版本中会有额外的性能提升。我们还启用了70B参数模型,并将在不久后提供更新,以便让社区了解情况。
Habana Gaudi2*深度学习加速器
Habana Gaudi2旨在提供高性能、高效率的训练和推理,特别适用于大型语言模型,例如Llama和Llama 2。每个Gaudi2加速器都具有96 GB的片上HBM2E,以满足LLM的内存需求,从而加速推理性能。Gaudi2由Habana SynapseAI*软件套件支持,该套件集成了PyTorch*和DeepSpeed*,用于训练和推理。此外,SynapseAI最近引入了对 HPU图形和 DeepSpeed推理的支持,这些非常适合延迟敏感的推理应用程序。Gaudi2将进行进一步的软件优化,包括在2023年第三季度支持FP8数据类型,预计这将带来大幅的性能提升、提高吞吐量并减少LLM执行的延迟。
LLM的性能需要灵活灵活的可扩展性,以减少服务器内部和节点之间的网络瓶颈。每个Gaudi2集成了24个100 GB以太网端口;21个端口可以专用于与服务器内的8个Gaudi2进行全对多连接,每个Gaudi2有3个端口专用于横向扩展。此网络配置有助于提高服务器内外的扩展性能。
在最近发布的MLPerf* 基准测试中,Gaudi2在384个Gaudi2加速器上训练175B参数GPT-3模型,在大型语言模型上表现出出色的训练性能。(有关更多信息,请参阅新的MLCommons结果突出了Intel令人印象深刻的竞争性AI 收益。在Gaudi2上经过验证的性能使其成为Llama和Llama 2训练和推理的高效解决方案。
下面,我们分别分享Llama 2 7B和Llama 2 13B模型在单个Habana Gaudi2设备上的推理性能,批量大小为1,输出令牌长度为256,使用混合精度(BF16)的各种输入令牌长度。报告的性能指标是每个令牌(不包括第一个令牌)的延迟。使用optinum-habana text generation script对Llama模型进行推理。Hugging Face optimum-habana 库使部署这些模型变得简单易行,只需在Gaudi加速器上更改代码最少。在图1 中,我们看到,对于128到2K的输入令牌,7B模型的Gaudi2推理延迟范围为每个令牌9.0到12.2毫秒,而对于13B模型,每个令牌的推理延迟范围为15.5到20.4毫秒。(硬件和软件配置详细信息包含在本文末尾。
图 1.Hábana Gaudi2 上的 Llama 2 7B 和 13B 推理性能*
立即在 Habana Gaudi 平台上使用 Llama 2 开始您的生成式 AI 之旅。如果您想访问 Gaudi2,请在Intel®开发人员云上注册一个实例,或联系 Supermicro 了解 Gaudi2 服务器基础设施。
Intel ® Xeon®可扩展处理器
第4代Intel Xeon可扩展处理器是通用计算,具有注入AI的加速功能,称为Intel®高级矩阵扩展(Intel® AMX)。具体来说,它在每个内核中都内置了BF16和INT8 GEMM(通用矩阵-矩阵乘法)加速器,以加速深度学习训练和推理工作负载。此外,Intel Xeon CPU Max系列在两个插槽中提供128 GB的高带宽内存(HBM2E),这对LLM非常有益,因为工作负载通常受内存带宽限制。
Intel Xeon处理器的软件优化已上游到深度学习框架中,并在PyTorch、TensorFlow*、DeepSpeed和其他AI库的默认发行版中提供。Intel领导了torch.compile的CPU后端的开发和优化,这是 PyTorch 2.0 的旗舰功能。Intel还提供面向PyTorch的Intel®扩展,以便在Intel® CPU上游进入官方PyTorch发行版之前对其进行高级优化。
第4代Intel Xeon处理器具有更高的内存容量,可在单个插槽内实现低延迟LLM执行,适用于对话式AI和文本摘要应用程序。此评估突出显示了BF16和INT8的每个插槽每个插槽执行一个模型的延迟。面向PyTorch的Intel扩展模块支持 SmoothQuant,以确保INT8精度模型的良好精度。
考虑到LLM应用程序需要足够快地生成令牌以满足快速阅读器的读取速度,我们选择令牌延迟(生成每个令牌的时间)作为要报告的主要性能指标,并作为参考,快速人类阅读器的读取速度,即每个令牌~100毫秒。图2和图3显示,第4代Intel Xeon可扩展单插槽处理器为Llama 2 7B BF16型号和Llama 2 13B INT8型号提供<100毫秒的延迟。
图2.Intel® Xeon®可扩展处理器上的Llama 2 7B和13B推理(Bfloat16)性能
图3.Intel® Xeon®可扩展处理器上的Llama 2 7B和13B推理(INT8)性能
IntelXeon CPU Max系列为两种型号提供更低的延迟,这得益于HBM2E更高的带宽。借助Intel AMX加速,客户可以通过更高的批量大小提高吞吐量。一个第4代Intel Xeon处理器为7B和13B参数型号提供<100毫秒的延迟。用户可以运行两个并行实例,每个套接字一个,以获得更高的吞吐量并独立为客户端提供服务。或者,用户可以利用面向 PyTorch的Intel扩展模块和 DeepSpeed 在第四代Intel Xeon处理器上运行推理,使用张量并行性来进一步减少延迟或支持更大的模型。
开发人员可以在此处获取有关在IntelXeon平台上运行LLM和Llama 2的更多详细信息。第四代IntelXeon可扩展处理器的云实例可在AWS*、GCP*和Azure*上预览,并在阿里云上正式发布。Intel将继续向PyTorch和DeepSpeed添加软件优化,以进一步加速Llama 2和其他LLM。
Intel®数据中心GPU Max系列
Intel数据中心GPU Max提供并行计算、HPC和AI,以实现HPC加速。Intel数据中心GPU Max系列是Intel性能最高、密度最高的独立GPU,将超过1000亿个晶体管封装到一个封装中,包含多达128个Intel® Xe内核,是Intel的基础GPU计算构建块。
Intel数据中心GPU Max系列旨在为AI和HPC中使用的数据密集型计算模型提供突破性的性能,包括:
- 408 MB基于分立式SRAM技术的L2缓存和64 MB L1缓存和高达128 GB的高带宽内存(HBM2E)
- 具有脉动阵列的AI增强型Intel® Xe矩阵扩展(XMX),可在单个设备中实现矢量和矩阵功能
Intel Data Center Max系列产品由oneAPI统一,提供通用、开放、基于标准的编程模型,以释放生产力和性能。Intel ® oneAPI工具包括高级编译器、库、分析器和代码迁移工具,可轻松迁移CUDA*代码以使用SYCL*打开C++。
Intel数据中心Max GPU的软件支持和优化是通过当今框架的开源扩展提供的,例如面向PyTorch的Intel扩展、面向TensorFlow的Intel®扩展和面向DeepSpeed的Intel®扩展。通过将这些扩展与上游框架版本结合使用,用户将能够实现机器学习工作流的直接加速。
Llama 2 7B和13B参数模型的推理性能是在600W OAM设备上评估的,该设备在封装上有两个GPU(瓦片),而我们只使用其中一个瓦片来运行推理。图4 显示,对于32到2K令牌的输入令牌长度,Intel数据中心GPU Max单个图块在推理7B模型时每个令牌延迟不到20毫秒,在13B模型推理中,每个令牌延迟可提供29.2到33.8毫秒。用户可以运行两个并行实例,每个切片一个实例,以提高吞吐量并独立为客户端提供服务。
图4.Llama 2 7B和13B在Intel®数据中心GPU Max 1550上的推理性能
客户可以在此处获取有关在Intel数据中心GPU平台上运行LLM和Llama 2的更多详细信息。Intel开发人员云上提供的Intel数据中心GPU Max云实例目前处于测试阶段。
除了推理之外,Intel还积极致力于加速微调,方法是将优化上游到Hugging Face Transformers、PEFT、Accelerate 和 Optimum 库,并在 Intel® Extension for Transformer 中提供参考工作流程,以支持在支持的Intel平台上高效部署基于LLM的典型任务,例如文本生成、代码生成、完成和总结。
总结
在本文中,我们介绍了Intel AI 硬件产品组合中Llama 2 7B和13B参数模型的推理性能初步评估,包括Habana Gaudi2深度学习加速器、第4代IntelXeon可扩展处理器、IntelXeon CPU Max系列和Intel数据中心GPU Max。我们将继续在软件版本中添加优化,并将很快分享有关LLM和更大的Llama 2模型的更多评估。
https://www.codeproject.com/Articles/5372101/Accelerate-Llama-2-with-Intel-AI-Hardware-and-Soft