[深入探索Llama.cpp：在LangChain中运行llama-cpp-python的指南]

adfyvatbia

于 2024-10-02 17:48:15 发布

阅读量185

点赞数 2

文章标签： llama langchain python

本文链接：https://blog.csdn.net/adfyvatbia/article/details/142683209

版权

# 深入探索Llama.cpp：在LangChain中运行llama-cpp-python的指南

## 引言

Llama.cpp是一个用于大语言模型(LLM)推理的工具，特别是在Python中通过llama-cpp-python绑定实现。许多模型可以通过Hugging Face访问。本文将介绍如何在LangChain中使用llama-cpp-python，并指导您完成安装、使用及解决常见问题的过程。

## 主要内容

### 模型文件转换

新版本的llama-cpp-python使用GGUF模型文件。要将现有的GGML模型转换为GGUF，可以运行以下命令：

```bash
python ./convert-llama-ggmlv3-to-gguf.py --eps 1e-5 --input models/openorca-platypus2-13b.ggmlv3.q4_0.bin --output models/openorca-platypus2-13b.gguf.q4_0.bin

安装选项

根据使用环境选择适合的安装方法。

CPU使用

%pip install --upgrade --quiet llama-cpp-python

使用OpenBLAS/cuBLAS/CLBlast的CPU+GPU加速

!CMAKE_ARGS="-DLLAMA_CUBLAS=on" FORCE_CMAKE=1 pip install llama-cpp-python

Metal GPU（针对Apple Silicon）

!CMAKE_ARGS="-DLLAMA_METAL=on" FORCE_CMAKE=1 pip install llama-cpp-python

Windows安装

对于Windows用户，需从源码编译安装，需满足以下要求：

git
python
cmake
Visual Studio Community

代码示例

以下是一个在LangChain中使用LlamaCpp的简单示例：

from langchain_community.llms import LlamaCpp
from langchain_core.callbacks import CallbackManager, StreamingStdOutCallbackHandler
from langchain_core.prompts import PromptTemplate

# 初始化提示模板
template = """Question: {question}

Answer: Let's work this out in a step by step way to be sure we have the right answer."""
prompt = PromptTemplate.from_template(template)

# 初始化回调管理器
callback_manager = CallbackManager([StreamingStdOutCallbackHandler()])

# 模型路径需根据实际设置
llm = LlamaCpp(
    model_path="/path/to/your/model.bin",  # 使用API代理服务提高访问稳定性
    temperature=0.75,
    max_tokens=2000,
    top_p=1,
    callback_manager=callback_manager,
    verbose=True
)

question = "What NFL team won the Super Bowl in the year Justin Bieber was born?"
llm.invoke(question)