隆重推出 OpenVINO™ 2024.3: 增强的多头注意力、OneDNN 及 vLLM 集成显著提升 LLM 性能...

最新推荐文章于 2024-09-30 10:25:11 发布

OpenVINO 中文社区

最新推荐文章于 2024-09-30 10:25:11 发布

阅读量436

点赞数 4

文章标签： openvino 人工智能

本文链接：https://blog.csdn.net/OpenVINOCC/article/details/141086590

版权

点击蓝字

关注我们,让开发变得更有趣

作者 | 武卓

排版 | 吴紫琴

OpenVINO™

介绍

我们很高兴地宣布，OpenVINO™ 2024.3 现已正式推出！本次更新带来了新的功能并对现有功能进行了增强，尤其是大型语言模型（LLM）的性能。我们将介绍此版本中的关键改进，更完整的列表，请参阅

https://www.intel.com/content/www/us/en/developer/articles/release-notes/openvino/2024-3.html。

OpenVINO™

Hugging Face上的模型专区

Hugging Face 作为发现和获取 AI 模型的首选平台，越来越受欢迎。您现在可以在 Hugging Face 上找到一系列 OpenVINO™ 的预优化模型，从而能够更轻松地访问和快速运行模型。这里面包括了 Phi-3、Mistral、Mixtral、LCM Dreamshaper、starcoder2 等模型在不同精度下的模型。

对于该专区中的所有模型，请参阅：

https://huggingface.co/OpenVINO）。

在模型卡中，您可以找到有关每个模型的更多信息，包括描述以及如何使用 Optimum-Intel 或 OpenVINO™ GenAI 软件包运行模型推理。这一新增功能旨在增强 AI 模型的可访问性，并加速模型的集成和部署。

OpenVINO™

性能提升

改进了 Intel 独立显卡上的 LLM 性能

英特尔®的独立显卡系列为计算密集型 AI 任务提供加速处理能力。在此次新版本中，我们旨在增强独立显卡上 LLM 和其他模型的性能。与今年的第一个版本 2024.1 相比，此版本的第一个 token 延迟在 Intel® Arc™ 独立显卡上的性能提升在 1.9 倍到 6.8 倍之间。对于第 2 个 token 的吞吐量性能，与今年的第一个版本相比，Intel® Arc™ 独立显卡的性能提升了 2 到 2.9 倍。这些改进是通过多头注意力（MHA）和 OneDNN 增强功能的优化实现的。此版本中独立显卡上的其它模型性能改进包括 Stable Diffusion 和 Whisper 模型。特别是对于 Stable Diffusion 模型，与上一版本相比，图像生成时间的性能提高了 1.1 倍到 1.6 倍。

第 2 个 token 延迟。每秒 token 数。越高越好。

ChatGLM2-6B, Llama-2-7b-chat 以及 Mistral-7b-v0.1 : 第二个token延迟（以每秒 token 数表示）. 输入分词数: 1024 | 输出分词数: 128 | 波束搜索: 1 | 批量大小: 1, 精度: INT4

Falcon-7b-instruct - Metric: 第二个token延迟（以每秒 token 数表示）输入分词数: 32 | 输出分词数: 128 | 波束搜索: 1 | 批量大小: 1, 精度: INT4

有关更多测试和系统配置详细信息，请访问:

https://edc.intel.com/content/www/us/en/products/performance/benchmarks/mobile_1/

性能因用途、配置和其他因素而有所不同。

更多的信息请访问：

intel.com/PerformanceIndex。

性能结果基于配置所截止日期的测试，可能并未反应所有公开可用的更新。

改进了提供 LLM 模型服务时的 CPU 性能

vLLM 是一个用于 LLM 推理和模型服务的开源库，自推出以来，凭借其创新技术在 AI 社区中获得了关注，以增强 LLM 推理性能和内存效率。在此版本中，OpenVINO™ 现在与 vLLM 以及连续批处理集成，从而在为 LLM 提供模型服务时提高了 CPU 性能。OpenVINO™ 利用全连接层优化的 vLLM 技术，融合多个全连接层（MLP）、U8 KV 缓存和动态拆分融合，所有这些都协同工作，以提高推理速度并减少内存使用。例如，在专注于最大化吞吐量的方案中，当批量较大时，全连接层的计算要求可能会匹配或超过内存边界。在这些情况下，融合多个全连接层（MLP）可以更有效地使用内存带宽，并增加每次内存访问执行的计算数量。您可以在 vLLM 中使用 OpenVINO™ 模型服务器（OVMS）或 OpenVINO™ 后端来利用这些新功能。

查看 OVMS 示例

https://docs.openvino.ai/2024/ovms_demos_continuous_batching.html

对于作为 vLLM 后端的 OpenVINO™

请参阅安装指南：

https://docs.vllm.ai/en/stable/getting_started/openvino-installation.html

OpenVINO™

结论

一如既往，我们重视您的反馈和贡献，以帮助不断改进 OpenVINO™。在每次发布中，我们都期待看到您使用 OpenVINO™ 以新的和创造性的方式推进您的 AI 计划。谢谢！

其它资源

Edge AI 参考套件

OpenVINO™ 模型服务器 GitHub 仓库

OpenVINO™ 文档