无需昂贵GPU:本地部署开源AI项目LocalAI你在消费级硬件上运行大模型

前言

本文主要介绍如何在本地服务器部署无需依托高昂价格的 GPU,也可以在本地运行离线 AI 项目的开源 AI 神器 LoaclAI,并结合 cpolar 内网穿透轻松实现远程使用的超详细教程。

随着 AI 大模型的发展,各大厂商都推出了自己的线上 AI 服务,比如写文章的、文字生成图片或者视频的等等。但是使用这些 AI 软件时,都需要将文件数据传输到商家的服务器上,所以不少用户就会存在这样的担忧:我的数据会泄露吗?我的隐私能得到保护吗?

今天就和大家分享一款可以本地部署的开源 AI 项目,它就是在 github 上已经获得了 27.7Kstar 的明星项目 LocalAI!它可以在本地直接运行大语言模型 LLM、生成图像、音频等。关键是不需要高端昂贵的 GPU,是的,直接在消费级硬件上通过 CPU 就能推理运行,真正降低了 AI 使用的门槛。

LocalAI 的安装方式也非常简单,支持通过 Shell 脚本或 Docker 容器来本地部署。本例中,将通过 docker 来演示如何快速启动 LocalAI 并进行大模型加载与跨网络环境远程使用。

image-20250107161115378

1. Docker 部署

本例使用 Ubuntu 22.04 进行演示,使用 Docker 进行部署,如果没有安装 Docker,可以查看这篇教程进行安装:《Docker 安装教程——Linux、Windows、MacOS》

安装好 Docker 后,打开终端执行这行命令启动容器即可:

sudo docker run -ti --name local-ai -p 8080:8080 localai/localai:latest-cpu

这里使用的镜像是仅使用 CPU 来运行的镜像,如果大家有 Nvidia 显卡的好 GPU,也可以使用下方命令拉取支持 N 卡的镜像来运行容器:

sudo docker run -ti --name local-ai -p 8080:8080 --gpus all localai/localai:latest-gpu-nvidia-cuda-12

更多项目配置与使用详情大家也可以访问作者的 github 主页进行查看:https://github.com/mudler/LocalAI

2. 简单使用演示

容器启动后,我们在 Ubuntu 中使用浏览器访问 http://localhost:8080 即可打开 LocalAI 的 Web UI 页面:

image-20250107150311522

能看到页面中央提示我们现在还没有添加大模型,我们可以点击 Gallery,在跳转页面选择一个大模型:

image-20250107151137003

可以看到在这个界面中有 600 多个大模型,并且可以根据用途标签(文字转语音、图片生成、文章生成等等)进行筛选或者在下方输入框搜索指定的模型:

1736234546248

我这里以添加 llama-3.2-1b 模型来进行演示:点击 install 按钮安装等待完成即可

image-20250107151337786

image-20250107151539442

image-20250107151705300

安装完成后,点击页面上方导航条中的 HOME 回到主页即可发现刚刚添加的 llama-3.2 模型:

image-20250107153151174

想要使用这个 AI 大模型,点击上方导航中的 chat 即可与它聊天了:

image-20250107153311605

点击右侧的模型选择,下拉框中会显示你已经安装的大模型:

image-20250107153543150

目前我只安装了这一个,如果想继续安装其他大模型,可以点击页面上方导航栏中的 Models 进行选择:(跳转的就是首次挑选模型安装的那个页面)

image-20250107153714760

3. 安装 cpolar 内网穿透

不过我们目前只能在本地局域网内访问刚刚部署的 LocalAI 来使用 AI 大模型聊天,如果想不在同一局域网内时,也能在外部网络环境使用手机、平板、电脑等设备远程访问与使用它,应该怎么办呢?我们可以使用 cpolar 内网穿透工具来实现远程访问的需求。无需公网 IP,也不用设置路由器那么麻烦。

下面是安装 cpolar 步骤:

Cpolar 官网地址: https://www.cpolar.com

使用一键脚本安装命令:

sudo curl https://get.cpolar.sh | sh

img

安装完成后,执行下方命令查看 cpolar 服务状态:(如图所示即为正常启动)

sudo systemctl status cpolar

img

Cpolar 安装和成功启动服务后,在浏览器上输入 ubuntu 主机 IP 加 9200 端口即:【http://localhost:9200】访问 Cpolar 管理界面,使用 Cpolar 官网注册的账号登录,登录后即可看到 cpolar web 配置界面,接下来在 web 界面配置即可:

image-20240801133735424

4. 配置公网地址

登录 cpolar web UI 管理界面后,点击左侧仪表盘的隧道管理——创建隧道:

  • 隧道名称:可自定义,本例使用了: localai ,注意不要与已有的隧道名称重复
  • 协议:http
  • 本地地址:8080
  • 域名类型:随机域名
  • 地区:选择 China Top

点击创建:

image-20250107155748353

创建成功后,打开左侧在线隧道列表,可以看到刚刚通过创建隧道生成了两个公网地址,接下来就可以在其他电脑或者移动端设备(异地)上,使用任意一个地址在浏览器中访问即可。

image-20250107160010472

如图所示,现在就已经成功实现使用公网地址异地远程访问本地部署的 LocalAI 来用 AI 大模型聊天啦!

image-20250107160149458

小结

为了方便演示,我们在上边的操作过程中使用 cpolar 生成的 HTTP 公网地址隧道,其公网地址是随机生成的。这种随机地址的优势在于建立速度快,可以立即使用。然而,它的缺点是网址是随机生成,这个地址在 24 小时内会发生随机变化,更适合于临时使用。

如果有长期使用 LocalAI,或者异地访问与使用其他本地部署的服务的需求,但又不想每天重新配置公网地址,还想让公网地址好看又好记并体验更多功能与更快的带宽,那我推荐大家选择使用固定的二级子域名方式来配置公网地址。

5. 配置固定公网地址

由于以上使用 cpolar 所创建的隧道使用的是随机公网地址,24 小时内会随机变化,不利于长期远程访问。因此我们可以为其配置二级子域名,该地址为固定地址,不会随机变化。

点击左侧的预留,选择保留二级子域名,地区选择 china top,然后设置一个二级子域名名称,我这里演示使用的是mylocal,大家可以自定义。填写备注信息,点击保留。

image-20250107160432921

保留成功后复制保留的二级子域名地址:

image-20250107160503136

登录 cpolar web UI 管理界面,点击左侧仪表盘的隧道管理——隧道列表,找到所要配置的隧道localai,点击右侧的编辑

image-20250107160552136

修改隧道信息,将保留成功的二级子域名配置到隧道中

  • 域名类型:选择二级子域名
  • Sub Domain:填写保留成功的二级子域名
  • 地区: China Top

点击更新

image-20250107160647570

更新完成后,打开在线隧道列表,此时可以看到随机的公网地址已经发生变化,地址名称也变成了保留和固定的二级子域名名称。

image-20250107160726385

最后,我们使用固定的公网地址在任意设备的浏览器中访问,可以看到成功访问本地部署的 LocalAI Web UI 页面,这样一个永久不会变化的二级子域名公网网址即设置好了。

image-20250107160928361

以上就是如何在本地 Ubuntu 系统使用 Docker 快速部署开源 AI 服务 LocalAI,并安装 cpolar 内网穿透工具配置固定不变的二级子域名公网地址,实现随时随地远程在线与 AI 大模型交互的全部流程,感谢您的观看,有任何问题欢迎留言交流。

<think>好的,用户想要了解本地部署大模型有哪些推荐。首先,我需要明确本地部署的需求,通常用户可能关注模型性能、资源消耗、开源许可等因素。然后,我需要回忆当前主流的大模型,尤其是适合本地部署的。 首先,Meta的LLaMA系列应该是一个重点,特别是LLaMA 2,因为它是开源的,适合商用,而且有不同规模版本,适合不同硬件配置。接下来,Alpaca和Vicuna是基于LLaMA微调的,可能也是不错的选择,但需要确认它们的许可协议是否可以商用。 然后,Falcon系列,尤其是Falcon-40B和7B,由阿联酋的团队开发,Apache 2.0协议,商用友好。这也是一个很好的选项。还有Bloom,作为多语言模型,适合需要多语言支持的用户,但参数量大可能需要更高资源。 中国的模型比如ChatGLM-6B,清华开发的,对中文优化,这对中文用户很重要。同样,百川和Aquila也是国内开发的,应该考虑进去。需要检查它们的开源协议和部署要求。 接着,考虑模型大小和硬件需求。例如,7B模型可能在消费GPU运行,而更大的模型如40B可能需要专业硬件。用户可能没有说明他们的硬件配置,所以需要分层次推荐,提供不同规模的模型。 还要注意模型的优化版本,比如经过量化的模型,如LLaMA.cpp或GPTQ版本,可以降低资源消耗。这对于资源有限的用户很重要,需要提到这些优化方法。 另外,用户可能需要知道部署工具,比如Hugging Face的Transformers库、vLLM、llama.cpp等,这些工具能简化部署过程,应该一并推荐。 需要验证每个模型的许可协议,特别是商用情况,比如LLaMA 2允许商用,而原始的LLaMA可能不允许。确保推荐的模型符合用户潜在的使用场景,比如企业部署可能需要商用许可。 最后,总结各个模型的优缺点,按不同需求分类,比如中英文支持、硬件要求、许可协议等,帮助用户根据自身情况选择。</think>以下是本地部署大模型的推荐清单及关键信息,按不同需求分类整理: --- ### **一、通用型大模型** 1. **LLaMA 2** - 开发者:Meta - 特点:开源商用许可,7B/13B/70B参数版本,支持中英文,推理性能优秀 - 硬件需求: - 7B:10GB显存(FP16)或量化后消费GPU运行 - 70B:需专业GPU(如A100) - 工具支持:Hugging Face Transformers、llama.cpp 2. **Falcon** - 开发者:阿联酋TII - 特点:Apache 2.0协议,7B/40B参数版本,专注推理和代码能力 - 硬件需求: - 7B:消费GPU(RTX 3090) - 40B:需多卡并行(如2×A100) --- ### **二、中文优化模型** 1. **ChatGLM3-6B** - 开发者:清华大学 - 特点:中英双语,针对中文问答优化,支持LoRA微调 - 硬件需求:最低6GB显存(量化后) - 部署工具:Hugging Face + PyTorch 2. **百川2(Baichuan2)** - 开发者:百川智能 - 特点:7B/13B参数,Apache 2.0协议,中文知识增强 - 硬件需求:13B需16GB显存(推荐A10/A100) --- ### **三、轻量模型** 1. **Mistral-7B** - 开发者:Mistral AI - 特点:7B参数性能接近13B模型,支持长上下文(8k tokens) - 硬件需求:消费GPU(RTX 4080)可流畅运行 2. **Phi-2** - 开发者:Microsoft - 特点:2.7B参数小模型,数学/逻辑推理能力强 - 硬件需求:4GB显存即可部署 --- ### **四、专业领域模型** 1. **Code Llama** - 开发者:Meta - 特点:编程专用,支持Python/C++/Java等,7B~34B参数 - 部署建议:需16GB+显存运行34B版本 2. **Bloomz** - 开发者:BigScience - 特点:多语言支持(46种语言),7B~176B参数 - 注意:176B需分布式部署 --- ### **五、部署优化方案** 1. **量化压缩** - 使用GGUF/GPTQ格式(如TheBloke社区模型) - 示例:LLaMA-7B可压缩至4GB内存占用 2. **推理框架选择** - 低资源场景:llama.cpp(CPU+RAM推理) - GPU加速:vLLM或Text Generation Inference --- ### **六、选型建议表** | 需求场景 | 推荐模型 | 显存要求 | 优势 | |---------|---------|---------|-----| | 中文对话 | ChatGLM3-6B | ≥6GB | 中文优化,部署简单 | | 低成本推理 | Mistral-7B | 8GB | 性能/资源比高 | | 商用授权 | Falcon-7B | 10GB | Apache 2.0协议 | | 代码生成 | Code Llama-7B | 10GB | 编程任务专用 | --- **部署步骤参考**: 1. 从Hugging Face下载模型 2. 使用llama.cpp或Ollama快速部署 3. 通过LangChain等框架集成应用 建议根据实际硬件条件和任务复杂度,优先测试量化版本(如Q4_K_M)。
评论 111
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

檀越@新空间

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值