6款不错的本地大模型运行工具推荐

运行大型语言模型 (LLM)(如 ChatGPT 和 Claude)通常涉及将数据发送到 OpenAI 和其他 AI 模型提供商管理的服务器。虽然这些服务是安全的,但一些企业更愿意将数据完全离线,以保护更大的隐私。

本文介绍了开发人员可以用来在本地运行和测试 LLM 的六大工具,确保他们的数据永远不会离开他们的设备,类似于端到端加密保护隐私的方式。

0、为什么要使用本地 LLM?

当用户使用 LM Studio 等工具运行本地 LLM 时,它不会收集用户数据或跟踪用户的操作。它允许你的所有聊天数据都保留在本地机器上,而无需与 AI/ML 服务器共享。

  • 隐私:你可以以多轮方式提示本地 LLM,而无需提示数据离开本地主机。

  • 自定义选项:本地 LLM 为 CPU 线程、温度、上下文长度、GPU 设置等提供高级配置。这类似于 OpenAI 的游乐场。

  • 支持和安全:它们提供与 OpenAI 或 Claude 类似的支持和安全性。

  • 订阅和费用:这些工具可以免费使用,不需要每月订阅。对于像 OpenAI 这样的云服务,每个 API 请求都需要付费。本地 LLM 有助于节省资金,因为没有每月订阅。

  • 离线支持:你可以在离线时加载和连接大型语言模型。

  • 连接性:有时,连接到像 OpenAI 这样的云服务可能会导致信号和连接不佳。

根据你的具体用例,可以选择几个离线 LLM 应用程序。其中一些工具完全免费用于个人和商业用途。其他可能需要向他们发送商业用途请求。有几种本地 LLM 工具可用于 Mac、Windows 和 Linux。以下是可以选择的六种最佳工具。

1、LM Studio

LM Studio 可以运行任何格式为 gguf 的模型文件。它支持来自模型提供商(如 Llama 3.1、Phi 3、Mistral 和 Gemma)的 gguf 文件。要使用 LM Studio,请访问上面的链接并为您的机器下载应用程序。启动 LM Studio 后,主页会显示要下载和测试的顶级 LLM。还有一个搜索栏,用于过滤和下载来自不同 AI 提供商的特定模型。

搜索特定公司的模型会显示几种模型,从小到大量化。根据您的机器,LM Studio 使用兼容性猜测来突出显示可在该机器或平台上运行的模型。

1.1 LM Studio 的主要功能

LM Studio 提供与 ChatGPT 类似的功能和特性。它有几个功能。以下重点介绍了 LM Studio 的主要功能。

  • 模型参数自定义:这允许你调整温度、最大令牌、频率惩罚等。

  • 聊天历史记录:允许你保存提示以供日后使用。

  • 参数和 UI 提示:你可以将鼠标悬停在信息按钮上以查找模型参数和术语。

  • 跨平台:LM Studio 适用于 Linux、Mac 和 Windows 操作系统。

  • 机器规格检查:LM Studio 检查计算机规格(如 GPU 和内存)并报告兼容模型。这可以防止下载可能无法在特定机器上运行的模型。

  • AI 聊天和游乐场:以多轮聊天格式与大型语言模型聊天,并通过同时加载多个 LLM 进行实验。

  • 面向开发人员的本地推理服务器:允许开发人员设置类似于 OpenAI API 的本地 HTTP 服务器。

本地服务器提供示例 Curl 和 Python 客户端请求。此功能有助于使用 LM Studio 构建 AI 应用程序以访问特定的 LLM。

# Example: reuse your existing OpenAI setup  
from openai import OpenAI  
  
  
# Point to the local server  
client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")  
  
  
completion = client.chat.completions.create(  
  model="TheBloke/Mistral-7B-Instruct-v0.1-GGUF",  
  messages=[  
    {"role": "system", "content": "Always answer in rhymes."},  
    {"role": "user", "content": "Introduce yourself."}  
  ],  
  temperature=0.7,  
)  
  
  
print(completion.choices[0].message)  

使用上述示例 Python 代码,你可以重复使用现有的 OpenAI 配置并修改基本 URL 以指向你的本地主机。

  • OpenAI 的 Python 库导入:LM Studio 允许开发人员导入 OpenAI Python 库并将基本 URL 指向本地服务器 (localhost)。

  • 多模型会话:使用单个提示并选择多个模型进行评估。

1.2 使用 LM Studio 的好处

LM Studio可免费供个人使用,它允许开发人员通过应用内聊天 UI 和游乐场运行 LLM。它提供了一个带有过滤器的华丽且易于使用的界面,并支持连接到 OpenAI 的 Python 库,而无需 API 密钥。

公司和企业可以根据要求使用 LM Studio。但是,它需要 M1/M2/M3 Mac 或更高版本,或带有支持 AVX2 处理器的 Windows PC。Intel 和 AMD 用户只能使用 v0.2.31 中的 Vulkan 推理引擎。

2、Jan

Jan 是 ChatGPT 的开源版本,旨在离线运行。它由一个秉承用户所有理念的用户社区构建。Jan 允许你在设备上运行 Mistral 或 Llama 等流行模型,而无需将其连接到互联网。使用 Jan,你可以访问 OpenAI 和 Groq 等远程 API。

2.1 Jan 的主要功能

Jan 是一款电子应用程序,功能类似于 LM Studio。它通过将消费机器转变为 AI 计算机,使 AI 开放并可供所有人使用。由于它是一个开源项目,开发人员可以为其做出贡献并扩展其功能。

以下细分了 Jan 的主要功能。

  • 本地:你可以在设备上运行您喜欢的 AI 模型,而无需将它们连接到互联网。

  • 即用型模型:下载 Jan 后,你将获得一组已安装的模型来开始使用。还可以搜索特定模型。

  • 模型导入:它支持从 Hugging Face 等来源导入模型。

  • 免费、跨平台和开源:Jan 是 100% 免费、开源的,适用于 Mac、Windows 和 Linux。

  • 自定义推理参数:调整模型参数,例如最大令牌、温度、流、频率惩罚等。所有首选项、模型使用和设置都保留在您的计算机本地。

  • 扩展:Jan 支持 TensortRT 和 Inference Nitro 等扩展,用于自定义和增强您的 AI 模型。

2.2 使用 Jan 的好处

Jan 提供了一个干净简单的界面来与 LLM 交互,它将你的所有数据和处理信息保存在本地。它已经安装了 70 多个大型语言模型供你使用。这些现成的模型的可用性使得连接和与 OpenAI 和 Mistral 等远程 API 交互变得容易。Jan 还有一个很棒的 GitHub、Discord 和 Hugging Face 社区可以关注和寻求帮助。

但是,与所有 LLM 工具一样,这些模型在 Apple Silicon Mac 上的运行速度比在 Intel 上更快。

3、Llamafile

Llamafile 由 Mozilla 支持,其目标是通过快速 CPU 推理(无需网络访问)支持开源 AI,并使每个人都能访问开源 AI。它将 LLM 转换为多平台可执行链接格式 (ELF)。它允许你仅使用单个可执行文件运行 LLM,从而提供将 AI 集成到应用程序中的最佳选项之一。

3.1 Llamafile 的工作原理

它旨在将权重转换为多个可执行程序,这些程序无需安装即可在 Windows、MacOS、Linux、Intel、ARM、FreeBSD 等架构上运行。在底层,Llamafile 使用 tinyBLAST 在 Windows 等操作系统上运行,而无需 SDK。

3.2 Llamafile 的主要功能

  • 可执行文件:与 LM Studio 和 Jan 等其他 LLM 工具不同,Llamafile 只需要一个可执行文件即可运行 LLM。

  • 使用现有模型:Llamafile 支持使用现有模型工具,如 Ollama 和 LM Studio。访问或制作模型:你可以访问 OpenAI、Mistral、Groq 等流行的 LLM。它还支持从头开始创建模型。

  • 模型文件转换:可以使用单个命令将许多流行的 LLM 的文件格式(例如 .gguf)转换为 .llamafile: llamafile-convert mistral-7b.gguf

3.3 开始使用 Llamafile

要安装 Llamafile,请前往 Huggingface 网站,从导航中选择“模型”,然后搜索 Llamafile。你也可以从这个 URL 安装你喜欢的量化版本。

注意:量化数越大,响应越好。如上图所示,本文使用 Meta-Llama-3.1-8B-Instruct.Q6_K.llamafile,其中 Q6 代表量化数。

步骤 1:下载 Llamafile

从上面的链接中,单击任意下载按钮以获取你喜欢的版本。如果你的机器上安装了 wget 实用程序,则可以使用以下命令下载 Llamafile。

wget https://huggingface.co/Mozilla/Meta-Llama-3.1-8B-Instruct-llamafile/blob/main/Meta-Llama-3.1-8B-Instruct.Q6_K.llamafile  

你应该将 URL 替换为喜欢的版本。
步骤 2:使 Llamafile 可执行

下载特定版本的 Llamafile 后,你应该使用以下命令通过导航到文件的位置使其可执行。

chmod +x Meta-Llama-3.1-8B-Instruct.Q6_K.llamafile  

步骤 3:运行 Llamafile
在文件名前面添加句点和斜杠 ./ 以启动 Llamafile。

./Meta-Llama-3.1-8B-Instruct.Q6_K.llamafile  

Llamafile 应用程序现在可在 http://127.0.0.1:8080 上运行各种 LLM。

3.4 使用 Llamafile 的好处

Llamafile 通过使 LLM 易于访问消费者 CPU 来帮助实现 AI 和 ML 的民主化。与其他本地 LLM 应用程序(如 Llama.cpp)相比,Llamafile 在游戏电脑上提供最快的即时处理体验和更好的性能。由于它具有更快的性能,因此它是总结长文本和大型文档的绝佳选择。它 100% 离线且私密地运行,因此用户不会将数据共享给任何 AI 服务器或 API。

Hugging Face 等机器学习社区支持 Llamafile 格式,因此可以轻松搜索与 Llamafile 相关的模型。它还有一个很棒的开源社区,可以进一步开发和扩展它。

4、GPT4ALL

GPT4ALL 建立在隐私、安全和无需互联网的原则之上。用户可以在 Mac、Windows 和 Ubuntu 上安装它。与 Jan 或 LM Studio 相比,GPT4ALL 的每月下载量、GitHub Stars 和活跃用户更多。

4.1 GPT4ALL 的主要功能

GPT4All 可以在主要的消费硬件上运行 LLM,例如 Mac M 系列芯片、AMD 和 NVIDIA GPU。以下是其主要功能。

  • 隐私第一:仅在你的机器上保留私人和敏感的聊天信息和提示。

  • 无需互联网:它完全离线工作。

  • 模型探索:此功能允许开发人员浏览和下载不同类型的 LLM 进行试验。你可以从 LLama、Mistral 等流行选项中选择大约 1000 个开源语言模型。

  • 本地文档:可以让你的本地 LLM 使用本地文档(如 .pdf 和 .txt)访问你的敏感数据,而无需数据离开你的设备,也无需网络。

  • 自定义选项:它提供了多种聊天机器人调整选项,如温度、批次大小、上下文长度等。

  • 企业版:GPT4ALL 提供了一个企业包,其中包含安全性、支持和每台设备许可证,可将本地 AI

4.2 开始使用 GPT4All

要开始使用 GPT4All 在本地运行 LLM,请下载适用于你的操作系统的所需版本。

4.3 使用 GPT4ALL 的好处

除了 Ollama 之外,GPT4ALL 拥有最多的 GitHub 贡献者,每月活跃用户约为 250000 名(参考nomic数据)。该应用程序收集有关使用情况分析和聊天共享的匿名用户数据。但是,用户可以选择加入或退出。

使用 GPT4ALL,开发人员可以从其庞大的用户群、GitHub 和 Discord 社区中受益。

5、Ollama

使用 Ollama,你可以轻松创建本地聊天机器人,而无需连接到 OpenAI 等 API。由于一切都在本地运行,因此无需支付任何订阅或 API 调用费用。

5.1 Ollama 的主要功能

  • 模型定制:Ollama 允许您转换 .gguf 模型文件并使用 ollama run modelname 运行它们。

  • 模型库:Ollama 在 ollama.com/library 上拥有大量可供尝试的模型。

  • 导入模型:Ollama 支持从 PyTorch 导入模型。

  • 社区集成:Ollama 无缝集成到 Web 和桌面应用程序中,例如 Ollama-SwiftUI、HTML UI、Dify.ai 等。

  • 数据库连接:Ollama 支持多个数据平台。

  • 移动集成:像 Enchanted 这样的 SwiftUI 应用程序将 Ollama 带到了 iOS、macOS 和 visionOS。Maid 也是一个跨平台的 Flutter 应用程序,可在本地与 .ggufmodel 文件交互。

5.2 开始使用 Ollama

首次使用 Ollama 时,请访问 https://ollama.com 并下载适用于您机器的版本。您可以在 Mac、Linux 或 Windows 上安装它。安装 Ollama 后,您可以使用以下命令在终端中查看其详细信息。

ollama  

要运行特定的 LLM,您应该使用以下命令下载它:

ollama pull <modelname>  

其中 <modelname> 是你要安装的模型的名称。在 GitHub 上查看 Ollama 以获取一些示例模型以供下载。pull 命令也用于更新模型。一旦使用它,只会获取差异。
下载例如 llama3.1 后,在命令行中运行 ollama run llama3.1 即可启动该模型。

在上面的例子中,我们提示 llama3.1 模型解决物理工作和能量问题。

5.3 使用 Ollama 的好处

Ollama 在 GitHub 上有超过 200 名贡献者,并且积极更新。在上面讨论的其他开源 LLM 工具中,它拥有最多的贡献者,并且可扩展性更强。

6、LLaMa.cpp

LLaMa.cpp 是底层后端技术(推理引擎),为 Ollama 等本地 LLM 工具提供支持。Llama.cpp 支持大量大型语言模型推理,配置最少,在各种硬件上具有出色的本地性能。它也可以在云中运行。

6.1 LLaMa.cpp 的主要功能

  • 设置:它具有最小的设置。可以使用单个命令安装它。

  • 性能:它在本地和云中的各种硬件上表现都非常出色。

  • 支持的模型:它支持流行和主要的 LLM,如 Mistral 7B、Mixtral MoE、DBRX、Falcon 等。

  • 前端 AI 工具:LLaMa.cpp 支持开源 LLM UI 工具,如 MindWorkAI/AI-Studio (FSL-1.1-MIT)、iohub/collama 等。

6.2 开始使用 LLaMa.cpp

要使用 llama.cpp 运行你的第一个本地大型语言模型,应该使用以下命令安装它:

brew install llama.cpp  

接下来,从 Hugging Face 或任何其他来源下载您想要运行的模型。例如,从 Hugging Face 下载Mistral模型并将其保存在你的机器上的某个位置。
使用你喜欢的命令行工具(如终端),进入您刚刚下载的 .gguf 模型文件的位置并运行以下命令:

llama-cli --color \   
-m Mistral-7B-Instruct-v0.3.Q4_K_M.ggufb \   
-p "Write a short intro about SwiftUI"  

总之,您首先调用 LLaMa CLI 工具并设置颜色和其他标志。-m 标志指定您要使用的模型的路径。-p 标志指定您希望用来指示模型的提示。
运行上述命令后,您将在以下预览中看到结果。

7、本地LLM的典型用例

在本地运行 LLM 可以帮助想要了解其性能及其详细工作原理的开发人员。本地 LLM 可以查询私人文档和技术论文,以便有关这些文档的信息不会离开用于查询它们的设备,而流向任何云 AI API。本地 LLM 在没有互联网的地方和网络接收较差的地方很有用。

在远程医疗环境中,由于隐私问题,本地 LLM 可以对患者文档进行排序,而无需将其上传到任何 AI API 提供商。

在本地使用大型语言模型之前了解其性能对于获得所需的响应至关重要。有几种方法可以确定特定 LLM 的性能。以下是几种方法。

  • 训练:模型是在什么数据集上训练的?

  • 微调:模型可以在多大程度上定制以执行专门的任务,或者可以针对特定领域进行微调?

  • 学术研究:LLM 是否有学术研究论文?

要回答上述问题,你可以查看 Hugging Face 和 Arxiv.org 等优秀资源。此外,Open LLm Leaderboard 和 LMSYS Chatbot Arena 为各种 LLM 提供了详细信息和基准。

8、结束语

正如本文所讨论的,选择和本地使用大型语言模型有多种动机。如果你不希望通过互联网将数据集发送给 AI API 提供商,您可以微调模型以在远程医疗应用程序中执行专门的任务。许多开源图形用户界面 (GUI) 本地 LLM 工具(如 LLm Studio 和 Jan)提供了直观的前端 UI,用于配置和试验 LLM,而无需像 OpenAI 或 Claude 这样的基于订阅的服务。您还发现了各种强大的命令行 LLM 应用程序,如 Ollama 和 LLaMa.cpp,它们可帮助您在本地运行和测试模型,而无需互联网连接。查看 Stream 的 AI Chatbot 解决方案,将 AI 聊天集成到您的应用程序中,并访问所有相关链接以了解更多信息。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

要在本地运行清华大模型GLM,需要进行以下几个步骤。 首先,你需要下载和安装相关的软件和工具。清华大模型GLM是基于Python开发的,因此你需要确保已安装了Python的最新版本。你还需要安装相关的Python库,如numpy、pandas和scikit-learn等。此外,你可能还需要安装一些其他依赖项,具体根据模型的具体要求而定。 然后,你需要获取清华大模型GLM的代码和数据。一般来说,这些都可以在该模型的官方网站或GitHub页面上找到。你需要下载和解压缩代码,并与之前安装的Python软件一起保存在本地。 接下来,你需要运行模型的代码。打开命令行界面,并导航到你保存模型代码的目录。然后,使用Python命令来运行代码。具体的命令可能因模型的实现方式而有所不同,你可以查看模型的文档或README文件,以获取详细的运行指南。 在运行模型之前,你需要准备输入数据。这可能涉及到数据的预处理、特征工程和转换等步骤,具体取决于模型的需求。你可以参考模型的文档或示例代码来了解如何准备数据,并将其传递给模型的代码进行运行。 最后,你需要等待模型运行完成,并查看结果。模型可能会生成一些输出,如预测值、模型评估指标等。你可以使用Python的可视化库,如matplotlib或seaborn,来绘制和分析结果。 总之,要在本地运行清华大模型GLM,你需要安装相关的软件和库,获取代码和数据,运行模型的代码,准备输入数据,并查看结果。这些步骤可能因具体的模型而有所差异,但以上是一个基本的操作流程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值