使用Runhouse和LangChain快速搭建自托管LLM服务_怎么使用大模型进行代码托管-CSDN博客

本文链接：https://blog.csdn.net/Shell726/article/details/145135454

在这篇文章中，我们将介绍如何使用 Runhouse 和 LangChain，快速搭建基于自托管环境的语言模型服务。这种方法适用于在本地GPU环境、AWS、GCP或其他云平台上运行模型，特别是需要高性能计算资源时。接下来，我们将通过代码详细说明如何完成这一任务。

技术背景介绍

近年来，大型语言模型（LLM）如GPT系列模型的应用场景越来越广泛。然而，许多开发者希望能够自托管这些模型，以更好地控制成本、安全性和性能。Runhouse 提供了一套工具，让用户可以轻松地连接本地或云端GPU资源，并与 LangChain 集成，快速搭建自托管的LLM服务。

核心原理解析

Runhouse Cluster 管理: Runhouse 允许用户动态创建和管理云端计算集群（如A100或A10G GPU实例），也可接入本地集群。
LangChain 模型托管: 使用 SelfHostedHuggingFaceLLM 类，可以自定义加载Hugging Face模型，并运行在指定计算资源上。
远程Pipeline加载: Runhouse 支持将模型Pipeline直接发送到远程硬件环境，或通过文件系统传输，显著提升大模型的加载效率。

代码实现演示

接下来我们用代码详细说明如何使用 Runhouse 和 LangChain 搭建一个自托管LLM环境。

1. 安装必要依赖

%pip install --upgrade --quiet runhouse
%pip install --upgrade --quiet langchain langchain_community

2. 导入模块并初始化GPU资源

首先，我们需要从 Runhouse 创建一个集群，可以是GCP、AWS上的按需GPU实例。

import runhouse as rh
from langchain.chains import LLMChain
from langchain_community.llms import SelfHostedHuggingFaceLLM
from langchain_core.prompts import PromptTemplate

# 配置GPU资源 (GCP上的 A100 实例)
gpu = rh.cluster(name="rh-a10x", instance_type="A100:1", use_spot=False)

# 如果使用AWS或其他资源，可以按照以下方式配置:
# gpu = rh.cluster(name='rh-a10x', instance_type='g5.2xlarge', provider='aws')

3. 定义Prompt和语言模型

使用LangChain的PromptTemplate构建一个简单的提示模板，并加载Hugging Face模型。

# 定义Prompt模板
template = """Question: {question}

Answer: Let's think step by step."""
prompt = PromptTemplate.from_template(template)

# 加载Hugging Face模型 (如 GPT-2)
llm = SelfHostedHuggingFaceLLM(
    model_id="gpt2", 
    hardware=gpu, 
    model_reqs=["pip:./", "transformers", "torch"]  # 模型所需依赖
)

# 创建LangChain LLMChain
llm_chain = LLMChain(prompt=prompt, llm=llm)

# 测试运行
question = "What NFL team won the Super Bowl in the year Justin Bieber was born?"
response = llm_chain.run(question)
print(response)

4. 自定义模型加载函数

如果需要加载自定义模型或Pipeline，可以通过自定义函数完成。

def load_pipeline():
    from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

    model_id = "gpt2"
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    model = AutoModelForCausalLM.from_pretrained(model_id)
    return pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=50)
    
def inference_fn(pipeline, prompt, stop=None):
    return pipeline(prompt)[0]["generated_text"][len(prompt):]

# 使用自定义Pipeline加载
llm = SelfHostedHuggingFaceLLM(
    model_load_fn=load_pipeline, 
    hardware=gpu, 
    inference_fn=inference_fn
)

# 测试运行
response = llm("Who is the current US president?")
print(response)

5. 提升加载效率：通过文件系统传输模型

对于较大的模型，可以先将Pipeline保存为文件，然后通过文件系统传输到远程硬件。

import pickle

# 加载Pipeline
pipeline = load_pipeline()

# 将Pipeline序列化为文件
blob = rh.blob(pickle.dumps(pipeline), path="models/pipeline.pkl")
blob.save().to(gpu, path="models")

# 在远程硬件中加载Pipeline
llm = SelfHostedHuggingFaceLLM.from_pipeline(
    pipeline="models/pipeline.pkl", 
    hardware=gpu
)

# 测试运行
response = llm("What is the capital of France?")
print(response)