探索Aphrodite引擎和Langchain的结合：轻松提升LLM性能-CSDN博客

本文链接：https://blog.csdn.net/bhawfgrcbtwny/article/details/142995549

引言

在处理大规模用户请求时，高效的推理引擎至关重要。Aphrodite引擎是一个开源的推理引擎，专为在PygmalionAI网站上服务数千用户而设计。它结合了vLLM的注意机制，实现快速吞吐量和低延迟，并支持多种最先进的采样方法。本文将介绍如何使用Aphrodite引擎和Langchain库结合，来增强大语言模型（LLM）的功能。

主要内容

安装必要的包

要使用Aphrodite引擎和Langchain整合，首先需要安装相关的Python包。

%pip install -qU langchain-community
%pip install --upgrade --quiet aphrodite-engine==0.4.2

初始化Aphrodite引擎

接下来，我们将介绍如何初始化Aphrodite引擎，并配置LLM。

from langchain_community.llms import Aphrodite

llm = Aphrodite(
    model="PygmalionAI/pygmalion-2-7b",
    trust_remote_code=True,  # 对于hf模型必须
    max_tokens=128,
    temperature=1.2,
    min_p=0.05,
    mirostat_mode=0,  # 改为2使用mirostat
    mirostat_tau=5.0,
    mirostat_eta=0.1,
)

代码示例

以下是如何使用Aphrodite引擎来生成响应的完整代码示例：

print(
    llm.invoke(
        '<|system|>Enter RP mode. You are Ayumu "Osaka" Kasuga.<|user|>Hey Osaka. Tell me about yourself.<|model|>'
    )
)

此代码将生成一个角色的介绍，展示Aphrodite引擎的响应能力。

分布式推理

Aphrodite支持分布式张量并行推理和服务。要在多GPU上运行推理，只需设置tensor_parallel_size参数。

from langchain_community.llms import Aphrodite

llm = Aphrodite(
    model="PygmalionAI/mythalion-13b",
    tensor_parallel_size=4,
    trust_remote_code=True,  # 必须对于hf模型
)

response = llm("What is the future of AI?")
print(response)