**解锁 Titan Takeoff 的力量：本地部署大语言模型的终极指南**-CSDN博客

本文链接：https://blog.csdn.net/mmlihaio/article/details/142685034

# 引言
在自然语言处理（NLP）领域，随着大语言模型（LLM）的普及，如何高效部署与优化这些模型成为了一个关键问题。TitanML 提供的平台——Titan Takeoff 致力于解决这个问题。本文将介绍如何使用 Titan Takeoff 在本地部署 LLM，以及一些常见的挑战与解决方案。

# 主要内容

## Titan Takeoff 的简介
Titan Takeoff 是一款强大的推理服务器，支持在本地硬件上使用单命令部署各种大语言模型。无论是 Falcon、Llama 2 还是 GPT-2，Titan Takeoff 都能轻松支持。要了解启动 Takeoff Server 的更多信息，请查看 [文档页面](https://docs.titanml.co/docs/next/apis/Takeoff%20inference_REST_API/generate)。

## 使用示例
在运行以下示例之前，确保 Takeoff Server 已在后台启动。

### 示例 1：基本使用
假设 Takeoff 正在本地机器的默认端口上运行：

```python
from langchain_community.llms import TitanTakeoff

llm = TitanTakeoff()
output = llm.invoke("What is the weather in London in August?")
print(output)

示例 2：指定端口和生成参数

在请求中指定更多参数以控制生成结果：

llm = TitanTakeoff(port=3000)
output = llm.invoke(
    "What is the largest rainforest in the world?",
    consumer_group="primary",
    min_new_tokens=128,
    max_new_tokens=512,
    no_repeat_ngram_size=2,
    sampling_topk=1,
    sampling_topp=1.0,
    sampling_temperature=1.0,
    repetition_penalty=1.0,
)
print(output)

示例 3：处理多输入

生成多个问题的答案：

rich_output = llm.generate(["What is Deep Learning?", "What is Machine Learning?"])
print(rich_output.generations)

示例 4：流式输出

实现流式数据输出的处理：

from langchain_core.callbacks import CallbackManager, StreamingStdOutCallbackHandler

llm = TitanTakeoff(
    streaming=True, callback_manager=CallbackManager([StreamingStdOutCallbackHandler()])
)
output = llm.invoke("What is the capital of France?")
print(output)

示例 5：使用 LCEL

使用 LCEL 简化处理：

from langchain_core.prompts import PromptTemplate

llm = TitanTakeoff()
prompt = PromptTemplate.from_template("Tell me about {topic}")
chain = prompt | llm
output = chain.invoke({"topic": "the universe"})
print(output)

使用 TitanTakeoff Python Wrapper

在初始化 TitanTakeoff 对象时，添加模型配置以启动读者：

import time

llama_model = {
    "model_name": "TheBloke/Llama-2-7b-Chat-AWQ",
    "device": "cuda",
    "consumer_group": "llama",
}
llm = TitanTakeoff(models=[llama_model])
time.sleep(60)

output = llm.invoke("What is the capital of France?", consumer_group="llama")
print(output)