隆重推出 OpenVINO™ 2024.3: 增强的多头注意力 、OneDNN 及 vLLM 集成显著提升 LLM 性能...

点击蓝字

关注我们,让开发变得更有趣

作者 | 武卓

排版 | 吴紫琴

OpenVINO™

介绍

我们很高兴地宣布,OpenVINO™ 2024.3 现已正式推出!本次更新带来了新的功能并对现有功能进行了增强,尤其是大型语言模型 (LLM) 的性能。我们将介绍此版本中的关键改进,更完整的列表,请参阅  

https://www.intel.com/content/www/us/en/developer/articles/release-notes/openvino/2024-3.html。

OpenVINO™

Hugging Face上的模型专区

Hugging Face 作为发现和获取 AI 模型的首选平台,越来越受欢迎。您现在可以在 Hugging Face 上找到一系列 OpenVINO™ 的预优化模型,从而能够更轻松地访问和快速运行模型。这里面包括了 Phi-3、Mistral、Mixtral、LCM Dreamshaper、starcoder2 等模型在不同精度下的模型。

对于该专区中的所有模型,请参阅:

https://huggingface.co/OpenVINO)。

在模型卡中,您可以找到有关每个模型的更多信息,包括描述以及如何使用 Optimum-Intel 或 OpenVINO™ GenAI 软件包运行模型推理。这一新增功能旨在增强 AI 模型的可访问性,并加速模型的集成和部署。

OpenVINO™

性能提升

改进了 Intel 独立显卡上的 LLM 性能

英特尔®的独立 显卡系列为计算密集型 AI 任务提供加速处理能力。在此次新版本中,我们旨在增强独立显卡上 LLM 和其他模型的性能。与今年的第一个版本 2024.1 相比,此版本的第一个 token 延迟在 Intel® Arc™ 独立 显卡 上的性能提升在 1.9 倍到 6.8 倍之间。对于第 2 个 token 的吞吐量性能,与今年的第一个版本相比,Intel® Arc™ 独立显卡的性能提升了 2 到 2.9 倍。这些改进是通过多头注意力 (MHA) 和 OneDNN 增强功能的优化实现的。此版本中独立显卡上的其它模型性能改进包括 Stable Diffusion 和 Whisper 模型。特别是对于 Stable Diffusion 模型,与上一版本相比,图像生成时间的性能提高了 1.1 倍到 1.6 倍。

024d0686384e71b6f6b0334bfd887f9a.png

第 2 个 token 延迟。每秒 token 数。越高越好。

ChatGLM2-6B, Llama-2-7b-chat 以及 Mistral-7b-v0.1 : 第二个token延迟(以每秒 token 数表示). 输入分词数: 1024 | 输出分词数: 128 | 波束搜索: 1 | 批量大小: 1, 精度: INT4 

Falcon-7b-instruct - Metric: 第二个token延迟(以每秒 token 数表示)输入分词数: 32 | 输出分词数: 128 | 波束搜索: 1 | 批量大小: 1, 精度: INT4 

有关更多测试和系统配置详细信息,请访问:

https://edc.intel.com/content/www/us/en/products/performance/benchmarks/mobile_1/

性能因用途、配置和其他因素而有所不同。

更多的信息请访问:

intel.com/PerformanceIndex。

性能结果基于配置所截止日期的测试,可能并未反应所有公开可用的更新。 

改进了提供 LLM 模型服务时的 CPU 性能

vLLM 是一个用于 LLM 推理和模型服务的开源库,自推出以来,凭借其创新技术在 AI 社区中获得了关注,以增强 LLM 推理性能和内存效率。在此版本中,OpenVINO™ 现在与 vLLM 以及连续批处理集成,从而在为 LLM 提供模型服务时提高了 CPU 性能。OpenVINO™ 利用全连接层优化的 vLLM 技术,融合多个全连接层 (MLP)、U8 KV 缓存和动态拆分融合,所有这些都协同工作,以提高推理速度并减少内存使用。例如,在专注于最大化吞吐量的方案中,当批量较大时,全连接层的计算要求可能会匹配或超过内存边界。在这些情况下,融合多个全连接层 (MLP) 可以更有效地使用内存带宽,并增加每次内存访问执行的计算数量。您可以在 vLLM 中使用 OpenVINO™ 模型服务器 (OVMS) 或 OpenVINO™ 后端来利用这些新功能。

查看 OVMS 示例

https://docs.openvino.ai/2024/ovms_demos_continuous_batching.html

对于作为 vLLM 后端的 OpenVINO™

请参阅安装指南:

https://docs.vllm.ai/en/stable/getting_started/openvino-installation.html

OpenVINO™

结论

一如既往,我们重视您的反馈和贡献,以帮助不断改进 OpenVINO™。在每次发布中,我们都期待看到您使用 OpenVINO™ 以新的和创造性的方式推进您的 AI 计划。谢谢!

其它资源

Edge AI 参考套件

OpenVINO™ 模型服务器 GitHub 仓库

OpenVINO™ 文档

Jupyter Notebooks

安装和设置

产品页面

Notices & Disclaimers 

Intel technologies may require enabled hardware, software, or service activation. 

No product or component can be absolutely secure. 

Your costs and results may vary. 

© Intel Corporation. Intel, the Intel logo, and other Intel marks are trademarks of Intel Corporation or its subsidiaries. Other names and brands may be claimed as the property of others. 

OpenVINO™

---------------------------------------

*OpenVINO and the OpenVINO logo are trademarks of Intel Corporation or its subsidiaries.

-----------------------------

 OpenVINO 中文社区 

微信号 : openvinodev

B站:OpenVINO中文社区

“开放、开源、共创”

致力于通过定期举办线上与线下的沙龙、动手实践及开发者交流大会等活动,促进人工智能开发者之间的交流学习。

○ 点击 “ 在看 ”,让更多人看见

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值