6个最受欢迎的本地运行大模型工具整理

程序员丸子

于 2024-10-09 16:00:00 发布

阅读量253

点赞数 11

文章标签：自然语言处理大模型 NLP AI大模型 LLM 大语言模型语言模型

本文链接：https://blog.csdn.net/lyy2017175913/article/details/142777013

版权

当前大语言模型（LLMs）如 ChatGPT 和 Claude 等在各个领域展现出了强大的能力。然而，这些模型通常需要将数据发送到由 OpenAI 等模型提供商管理的服务器上。对于一些对数据隐私要求较高的企业和开发者来说，他们更倾向于在本地运行大模型，以确保数据完全离线，避免数据泄露的风险。本文将介绍几种可以在本地运行和测试 LLMs 的工具，包括它们的特点、优势以及使用方法等。

为什么要使用本地运行大模型工具？

隐私保护：使用本地运行大模型工具，用户可以在不将数据发送到AI/ML服务器的情况下，与模型进行多轮交互。这意味着所有的聊天数据都保留在本地机器上，从而有效避免了数据泄露的风险。对于需要处理敏感信息的企业来说，这一点尤为重要。
定制化选项：本地运行大模型工具通常提供丰富的定制化选项，如CPU线程、温度控制、上下文长度、GPU设置等。这些选项使得用户可以根据自己的需求和硬件配置，对模型进行精细调整，以获得最佳的性能和体验。
成本节约：与云服务相比，本地运行大模型工具通常不需要支付每月的订阅费用。用户只需一次性下载并安装这些工具，即可在本地机器上自由运行模型。这对于需要长期使用大型语言模型的用户来说，可以显著节省成本。
离线支持：即使在没有网络连接的情况下，用户仍然可以加载和使用大型语言模型。这对于在偏远地区或网络状况不佳的环境中工作的用户来说，无疑是一个巨大的优势。
更好的性能和稳定性：由于数据无需在网络上传输，本地运行大模型工具通常能够提供更快的响应速度和更稳定的性能。这对于需要实时交互的应用场景来说尤为重要。

本地运行 LLMs 的工具介绍

（一）LM Studio（https://lmstudio.ai/）

模型支持
LM Studio 可以运行任何格式为 gguf 的模型文件，支持来自 Llama 3.1、Phi 3、Mistral 和 Gemma 等模型提供商的 gguf 文件。
关键特性

模型参数定制：允许用户调整温度、最大令牌数、频率惩罚等参数。
聊天历史：可以保存提示以便后续使用。
参数和 UI 提示：用户可以将鼠标悬停在信息按钮上查看模型参数和术语。
跨平台：可在 Linux、Mac 和 Windows 操作系统上使用。
机器规格检查：检查计算机的 GPU 和内存等规格，并报告兼容的模型，避免下载在特定机器上无法运行的模型。
AI 聊天和 playground：以多轮聊天格式与大型语言模型聊天，并通过并发加载多个 LLMs 进行实验。
本地推理服务器：允许开发者设置一个本地 HTTP 服务器，类似于 OpenAI 的 API，并提供了示例 Curl 和 Python 客户端请求，有助于使用 LM Studio 构建 AI 应用程序来访问特定的 LLM。

使用方法

下载安装：访问相关链接下载适合机器的应用程序。
模型下载：启动后，主页会呈现可下载和测试的顶级 LLMs，也可以通过搜索栏从不同的 AI 提供商那里过滤和下载特定的模型。
代码示例：通过修改 Python 代码中的 base_url 指向本地服务器，开发者可以重用现有的 OpenAI 配置来使用 LM Studio。

# Example: reuse your existing OpenAI setup
from openai import OpenAI

# Point to the local server
client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

completion = client.chat.completions.create(
  model="TheBloke/Mistral-7B-Instruct-v0.1-GGUF",
  messages=[
    {"role": "system", "content": "Always answer in rhymes."},
    {"role": "user", "content": "Introduce yourself."}
  ],
  temperature=0.7,
)

print(completion.choices[0].message)

（二）Jan （https://jan.ai/）

特点
Jan 是一个开源的、类似于 ChatGPT 的离线运行工具，由用户社区构建，秉持用户拥有的理念。
关键特性

本地运行：可以在不连接互联网的设备上运行喜欢的 AI 模型。
预装模型：下载后有一组已经安装的模型可供使用，也可以搜索特定模型。
模型导入：支持从 Hugging Face 等来源导入模型。
免费、跨平台和开源：100% 免费，在 Mac、Windows 和 Linux 上都可使用。
参数定制：可以调整模型参数，如最大令牌数、温度、流、频率惩罚等，所有的偏好、模型使用和设置都保留在本地计算机上。
扩展支持：支持 TensortRT 和 Inference Nitro 等扩展，用于定制和增强 AI 模型。

使用优势
Jan 提供了一个简洁的界面来与 LLMs 交互，并且将所有数据和处理信息都保留在本地。它已经预装了70多个大型语言模型，方便用户连接和与远程 API 如 OpenAI 和 Mistral 交互。同时，它还有活跃的社区支持。

（三）Llamafile（https://github.com/Mozilla-Ocho/llamafile）

工作原理
Llamafile 由 Mozilla 支持，旨在让每个人都能使用快速的 CPU 推理且无需网络访问来使用开源 AI。它将 LLMs 转换为多平台可执行链接格式（ELF），通过一个可执行文件就可以运行 LLMs。
关键特性

可执行文件：与其他工具不同，只需要一个可执行文件即可运行 LLMs。
模型使用：支持使用现有模型工具如 Ollama 和 LM Studio 的模型，也可以访问来自 OpenAI、Mistral 等的流行 LLMs，还提供了从头创建模型的支持。
模型文件转换：可以用一个命令将许多流行 LLMs 的文件格式进行转换，例如将.gguf 转换为.llamafile。

使用步骤

安装 Llamafile，请前往 Huggingface 网站，从导航中选择 Models，然后搜索 Llamafile。您还可以从下面的 URL 安装首选的量化版本。

https://huggingface.co/Mozilla/Meta-Llama-3.1-8B-Instruct-llamafile/tree/main
使其可执行：下载后使用命令使其可执行（chmod +x Meta-Llama-3.1-8B-Instruct.Q6_K.llamafile）。
运行：在文件名前加上./ 来启动（./Meta-Llama-3.1-8B-Instruct.Q6_K.llamafile）。

（四）GPT4ALL（https://www.nomic.ai/gpt4all）

特点
GPT4ALL 基于隐私、安全和无需互联网的原则构建，用户可以在 Mac、Windows 和 Ubuntu 上安装。
关键特性

隐私优先：将私人和敏感的聊天信息和提示仅保留在本地机器上。
无需互联网：完全离线工作。
模型探索：开发者可以浏览和下载不同种类的 LLMs 进行实验，有大约 1000 个开源语言模型可供选择。
本地文档：可以让本地 LLM 访问本地的敏感数据，如.pdf 和.txt 文件，而数据不会离开设备且无需网络。
定制化选项：提供了多种聊天机器人调整选项，如温度、批量大小、上下文长度等。
企业版：提供企业包，包括安全、支持和每设备许可证，将本地 AI 带给企业。

使用优势
GPT4ALL 拥有大量的用户和活跃的社区，除 Ollama 外，它在 GitHub 上的贡献者数量较多，约有 250000 每月活跃用户。

（五）Ollama（https://ollama.com）

Ollama是一款易于使用的本地运行大模型工具，它允许用户轻松创建无需连接API的本地聊天机器人。Ollama支持多种模型文件的转换和运行，并提供了丰富的模型库供用户选择。此外，该工具还支持从PyTorch导入模型，并无缝集成到Web和桌面应用程序中。。

关键特性

模型定制：可以转换.gguf 模型文件并使用 ollama run modelname 运行。
模型库：在ollama.com/library有大量模型可供尝试。
模型导入：支持从 PyTorch 导入模型。
社区集成：无缝集成到 Web 和桌面应用程序中。
数据库连接：支持多个数据平台。
移动集成：有相关应用将其带到 iOS、macOS 和 visionOS 等平台。

使用方法

下载安装：访问https://ollama.com下载适合机器的版本。
模型下载：使用 ollama pull modelname 下载模型，运行时使用 ollama run modelname。

（六）LLaMa.cpp （https://github.com/ggerganov/llama.cpp）

特点
LLaMa.cpp 是一些本地 LLM 工具的底层后端技术（推理引擎），支持显著的大语言模型推理，配置简单，在各种硬件上本地性能优秀，也可以在云中运行。
关键特性

简单设置：通过一个命令安装。
性能优秀：在本地和云中的各种硬件上都表现良好。
支持模型：支持流行的主要 LLMs，如 Mistral 7B、Mixtral MoE 等。
前端工具支持：支持一些开源 LLM UI 工具。

使用步骤

安装：使用 brew install llama.cpp 安装。
模型下载：从 Hugging Face 或其他来源下载模型。
运行：在命令行中使用相应命令运行模型，指定模型路径和提示。

llama-cli --color \ 
-m Mistral-7B-Instruct-v0.3.Q4_K_M.ggufb \ 
-p "Write a short intro about SwiftUI"

本地运行大语言模型工具为开发者和企业提供了一种保护数据隐私、降低成本、提高定制化能力的解决方案。通过使用这些工具，如 LM Studio、Jan、Llamafile、GPT4ALL、Ollama 和 LLaMa.cpp 等，用户可以在本地环境中运行和测试 LLMs，满足不同的应用需求。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

程序员丸子

关注

11
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫