使用IPEX-LLM在Intel CPU和GPU上高效运行大语言模型

最新推荐文章于 2025-02-20 04:00:41 发布

vaidfl

最新推荐文章于 2025-02-20 04:00:41 发布

阅读量640

点赞数 19

文章标签：语言模型 python 人工智能

本文链接：https://blog.csdn.net/vaidfl/article/details/145742773

版权

在当今AI应用中，高效运行大语言模型（LLM）是一项关键需求。而IPEX-LLM是一个专为Intel CPU和GPU（如iGPU、Arc、Flex和Max等）优化的PyTorch库，能够以极低的延迟运行LLM。本文将通过LangChain与IPEX-LLM的结合，为您展示如何进行文本生成任务。

技术背景介绍

IPEX-LLM通过支持Huggingface格式的模型，并能自动转换为低比特率格式，极大地提高了推理效率。其设计目标就是在本地PC上利用Intel硬件以最低延迟运行LLM。

核心原理解析

IPEX-LLM采用低比特率模型格式，通过减少内存消耗和提高推理速度来实现高效的模型运行。同时，它还支持在不同设备之间的便捷模型迁移，可以节省存储空间并提高加载效率。

代码实现演示

以下代码示例展示了如何使用LangChain和IPEX-LLM加载和运行Vicuna-1.5模型：

# 安装必要的库
%pip install -qU langchain langchain-community
%pip install --pre --upgrade ipex-llm[all]

import warnings
from langchain.chains import LLMChain
from langchain_community.llms import IpexLLM
from langchain_core.prompts import PromptTemplate

# 忽略不必要的警告
warnings.filterwarnings("ignore", category=UserWarning, message=".*padding_mask.*")

# 定义提示模板
template = "USER: {question}\nASSISTANT:"
prompt = PromptTemplate(template=template, input_variables=["question"])

# 加载本地模型
llm = IpexLLM.from_model_id(
    model_id="lmsys/vicuna-7b-v1.5",
    model_kwargs={"temperature": 0, "max_length": 64, "trust_remote_code": True},
)

# 创建链
llm_chain = prompt | llm

# 进行文本生成
question = "What is AI?"
output = llm_chain.invoke(question)
print("Output:", output)

保存和加载低比特模型

为节省存储空间和提高效率，您可以将低比特模型保存到磁盘，并在需要时加载：

# 保存低比特模型
saved_lowbit_model_path = "./vicuna-7b-1.5-low-bit"
llm.model.save_low_bit(saved_lowbit_model_path)
del llm

# 从保存的路径加载低比特模型
llm_lowbit = IpexLLM.from_model_id_low_bit(
    model_id=saved_lowbit_model_path,
    tokenizer_id="lmsys/vicuna-7b-v1.5",
    model_kwargs={"temperature": 0, "max_length": 64, "trust_remote_code": True},
)

# 使用加载的模型
llm_chain = prompt | llm_lowbit
output = llm_chain.invoke(question)
print("Loaded Model Output:", output)