Neural Speed:加速大型语言模型推理的利器

Neural Speed:加速大型语言模型推理的利器

neural-speedAn innovation library for efficient LLM inference via low-bit quantization and sparsity项目地址:https://gitcode.com/gh_mirrors/ne/neural-speed

在人工智能领域,大型语言模型(LLMs)的推理效率一直是研究的热点。今天,我们向您推荐一款创新的开源项目——Neural Speed,它通过先进的低比特量化技术,显著提升了LLMs在Intel平台上的推理速度。

项目介绍

Neural Speed 是一个专为Intel平台设计的高效LLMs推理库,它利用Intel Neural Compressor提供的最先进的低比特量化技术,实现了对大型语言模型的快速推理。该项目受到llama.cpp的启发,并在NeurIPS' 2023中进一步优化和创新。

项目技术分析

Neural Speed 的核心优势在于其高度优化的CPU内核,支持多种指令集(如AMX、VNNI、AVX512F等),并针对N比特权重(从int1到int8)进行了优化。此外,它还支持跨套接字/节点的张量并行,从而在多节点环境中实现高效的模型推理。

项目及技术应用场景

Neural Speed 适用于需要高效处理大型语言模型的各种场景,包括但不限于:

  • 自然语言处理:如聊天机器人、文本生成、翻译等。
  • 内容创作:如自动写作、代码生成等。
  • 数据分析:如情感分析、主题建模等。

项目特点

  • 高性能:相比llama.cpp,Neural Speed 提供了高达40倍的性能加速。
  • 广泛的硬件支持:支持Intel Xeon Scalable Processors、Intel Xeon CPU Max Series以及Intel Core Processors等多种硬件平台。
  • 丰富的模型支持:几乎支持所有PyTorch格式的Hugging Face LLMs,如Llama2、ChatGLM2等,以及GGUF格式的模型。
  • 易于集成:可以轻松集成到现有的Transformer-like API中,或作为Neural Chat Server的推理后端。

安装与快速开始

安装

pip install -r requirements.txt
pip install neural-speed

快速开始

以下是一个简单的示例,展示如何使用Neural Speed进行推理:

from transformers import AutoTokenizer, TextStreamer
from intel_extension_for_transformers.transformers import AutoModelForCausalLM

model_name = "Intel/neural-chat-7b-v3-1"
prompt = "Once upon a time, there existed a little girl,"

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
inputs = tokenizer(prompt, return_tensors="pt").input_ids
streamer = TextStreamer(tokenizer)

model = AutoModelForCausalLM.from_pretrained(model_name, load_in_4bit=True)
outputs = model.generate(inputs, streamer=streamer, max_new_tokens=300)

结语

Neural Speed 是一个强大的工具,它通过先进的量化技术和优化的内核,显著提升了大型语言模型在Intel平台上的推理效率。无论您是研究人员、开发者还是企业用户,Neural Speed 都能为您提供高效、可靠的LLMs推理解决方案。立即尝试,体验前所未有的速度与性能!

neural-speedAn innovation library for efficient LLM inference via low-bit quantization and sparsity项目地址:https://gitcode.com/gh_mirrors/ne/neural-speed

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

陈革牧Perry

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值