本地部署AI模型-phi3

What:

Phi-3-Mini被认为是Microsoft计划发布的三款小型机型中的首款。据报道,在语言、推理、编码和数学等领域,它在各种基准测试中的表现优于相同大小和下一个尺寸的模型。
从本质上讲,语言模型是 ChatGPT、Claude、Gemini 等 AI 应用程序的支柱。这些模型在现有数据上进行训练,以解决常见的语言问题,例如文本分类、回答问题、文本生成、文档摘要等。

Why

1、语言生成质量提升: Phi-3-mini 在生成文本时可以提供更加流畅、连贯和自然的输出。这对于需要高质量文本生成的应用非常有用,比如文档生成、创意写作等。

2、更快的响应速度: 尽管 Phi-3-mini 比较 Phi-3.5 更小,但它的推理速度更快,这意味着可以更快地对输入进行响应,减少用户等待时间。

3、适用于资源有限的环境: 由于它的规模较小,Phi-3-mini 在资源有限的环境(如移动设备或嵌入式系统)中运行效率更高,能够提供良好的性能和体验。

4、语言理解能力: Phi-3-mini 在理解输入文本并提供相关信息方面也有所改进,能够更准确地回答问题或提供相关建议。

How

首先介绍一个软件:ollama,
Ollama是一个用于在本地计算机上运行大型语言模型(LLMs)的命令行工具。它允许用户下载并本地运行像Llama 3、Phi3等模型,并支持自定义和创建自己的模型。Ollama是免费开源的项目,支持macOS、Linux和Windows操作系统。它还提供了官方的Docker镜像,使用户可以通过Docker容器部署大型语言模型,确保所有与模型的交互都在本地进行。
此外,Ollama也是一个开源的大型语言模型服务,提供了类似OpenAI的API接口和聊天界面,可以非常方便地部署最新版本的GPT模型并通过接口使用。它支持热加载模型文件,无需重新启动即可切换不同的模型。

优点:
  • 本地利用 cpu 运行大模型,本地安全可靠。
  • ollama 命令,管理大模型相对方便,也可以多个大模型中切换。
  • 终端直接开始聊天。
  • 社区提供了支持 web api 方式访问 WebUI
    官网:https://ollama.com/
    在这里插入图片描述
    进入 ollama 下载页面,选择自己的系统版本的下载并安装即可。
验证是否已经安装

输入 ollama 命令,正常的得出命令行输出,表示已经安装成功
在这里插入图片描述
我这里是Mac,可以在应用中看到图标。显示已经安装成功。
在这里插入图片描述

查看下载命令

在这里插入图片描述
点击进去。执行命令
在这里插入图片描述
命令:ollama run phi3

安装界面

在这里插入图片描述
直接在终端中对话:用 phi3 模型写一个 nextjs组件或者 回答你的一些知识类问题
案例:
在这里插入图片描述

可视化UI界面可以试试 Open WebUI
docker 部署

如果您的计算机上有 Ollama,请使用以下命令:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
其中:–add-host 选项需要指定一个有效的 IP 地址。在命令中,host.docker.internal:host-gateway需要替换电脑本地的ip
如果你电脑的本地ip为:192.168.1.1,则命令是:
docker run -d -p 3000:8080 --add-host=host.docker.internal:192.168.1.1 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
安装完成后,可以通过访问Open WebUI。😄
http://localhost:3000

在这里插入图片描述
注册账号密码。直接就可以使用图形化聊天界面了。

在这里插入图片描述
以上,只是一个基本本地部署流程,实际使用还有很多好的功能与用法。查询了一下ollama 大部分代码基于 go 开发,大家可以多多探索。

<think>好的,用户想了解如何在本地环境中部署大型AI模型。首先,我需要明确用户的需求。用户可能有一定的技术背景,但不太清楚具体步骤,或者是个开发者想基于大模型构建应用。根据提供的引用,提到了三大高效工具:Ollama、LM Studio和Text Generation WebUI。我需要分别介绍这三个工具的特点、部署步骤和适用场景。 首先,Ollama支持多平台,适合开发者,特别是需要命令行操作的用户。需要说明安装步骤,比如下载安装包,然后通过命令行拉取模型。同时,用户可能需要知道如何运行和测试模型,比如输入提示词查看输出。 接下来是LM Studio,它提供图形界面,适合非开发者或喜欢可视化操作的用户。需要指导用户从官网下载,搜索并下载模型,然后启动本地服务器。这里要注意模型格式的兼容性,比如GGUF格式。 然后是Text Generation WebUI,适合需要高度定制的用户,支持多种模型框架。安装步骤涉及克隆仓库、安装依赖,可能需要处理Python环境的问题。用户可能会遇到依赖冲突,需要建议使用虚拟环境。 之后,需要比较这三个工具,帮助用户根据自身情况选择。比如,开发者可能偏好Ollama或TextGen WebUI,而非开发者更适合LM Studio。还要提到模型格式的重要性,确保用户下载正确的版本。 最后,生成相关问题时要覆盖用户可能的后续疑问,比如硬件需求、性能优化、模型选择等。还要确保回答结构清晰,步骤详细,避免使用专业术语过多,保持易懂。同时检查LaTeX格式是否正确,虽然这个问题中可能用不到数学公式,但需要留意是否有需要格式化的地方。确保引用正确,末尾添加引用标识。</think>### 如何在本地部署大型AI模型? #### 一、工具选择与核心原理 本地部署大型AI模型的核心在于平衡算力资源与模型性能,常用工具通过量化技术(如GGUF、GPTQ格式)压缩模型规模,同时结合硬件加速(如CUDA、Metal)提升推理速度[^1]。以下是三种主流方法: #### 二、具体部署方法 1. **Ollama(开发者推荐)** - 特点:支持macOS/Linux/Windows,命令行操作 - 部署步骤: ```bash # 安装后拉取模型(以Llama3为例) ollama pull llama3 # 启动对话 ollama run llama3 ``` - 测试:输入$p = \rho g h$(流体压强公式)验证模型STEM能力 2. **LM Studio(非开发者首选)** - 特点:图形化界面,模型市场集成 - 操作流程: 1. 下载安装包(Windows/macOS) 2. 搜索并下载TheBloke系列的GGUF格式模型 3. 启动"Local Server"开启API服务 3. **Text Generation WebUI(定制化方案)** - 特点:支持HuggingFace全系列模型 - 安装命令: ```bash git clone https://github.com/oobabooga/text-generation-webui cd text-generation-webui && pip install -r requirements.txt ``` #### 三、技术参数对照表 | 工具 | 最小显存 | 推荐配置 | 模型格式支持 | |---------------------|----------|---------------|----------------| | Ollama | 8GB | RTX 3060+ | GGUF, Safetensors | | LM Studio | 6GB | M1芯片/MacBook| GGUF | | TextGen WebUI | 12GB | RTX 3090+ | HF, GPTQ | #### 四、模型选择建议 根据泰勒展开式$f(x) = \sum_{n=0}^{\infty} \frac{f^{(n)}(a)}{n!}(x-a)^n$的复杂度类比,建议: - 入门:Phi-3-mini(2GB显存) - 进阶:Llama3-8B(6GB显存) - 专业:Qwen1.5-72B(需多GPU)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱写Bug的小孙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值