使用LobeChat+Ollama快速搭建本地大模型,离线可用


分享一下如何部署本地大模型,让它成为你的离线助手。

准备工作

服务器或者电脑一台,配置越高越好, Windows和Mac皆可,Widows最好内存8G以上而且带一块好一点的显卡;Mac的话建议M系列芯片,内存建议16G以上

下载好docker桌面版:https://www.docker.com/products/docker-desktop/

下载好Ollama:https://ollama.ai/

注意:运行 7B 模型时,您应至少有 8 GB 的可用内存,运行 13B 模型时应有 16 GB 的可用内存,运行 33B 模型时应有 32
GB 的可用内存。

M系列MacBook采用统一内存架构,这意味着CPU和GPU可以共享同一内存池。这种设计减少了数据在不同处理单元之间传输的需要,从而可以显著提高大型数据集处理的速度和效率。

下载Ollama

在这里插入图片描述
在官网进行下载,也可以使用docker进行安装。

什么是Ollama

在这里插入图片描述
Ollama 是一个轻量级、可扩展的框架,旨在在本地计算机上构建和运行大型语言模型(LLM)。它支持多种模型架构,如 Llama 3、Phi 3、Mistral 和 Gemma 2,并提供了简洁的 API 以创建、运行和管理这些模型。Ollama 可以在 macOS、Linux 和 Windows 上运行,适合于需要在本地运行大模型的应用场景​ (Ollama)​​ (GitHub)​。

Ollama 的主要特点包括:

  • 易用性:API设计简洁,用户可以轻松上手,即使是没有经验的用户也能快速使用​ (腾讯云 - 产业智变 云启未来)​。
  • 性能:运行速度快,占用资源少,即使在配置较低的机器上也能流畅运行​ (腾讯云 - 产业智变 云启未来)​。
  • 功能多样性:支持多种任务,如文本翻译、问答、代码生成等,可以满足用户的多种需求​ (腾讯云 - 产业智变 云启未来)​。
  • 社区支持:拥有一个活跃的社区,用户可以分享经验和获得帮助​ (腾讯云 - 产业智变 云启未来)​。

此外,Ollama 提供了一个丰富的模型库,用户可以轻松地拉取和运行预训练模型,并且支持从 PyTorch 或 Safetensors 导入模型进行自定义​ (Ollama)​。

如果你想在自己的电脑上运行如 GPT-3 这样的大型人工智能模型,而不是通过互联网连接到它们,那么 Ollama 是一个实现这一目标的工具。

Ollama支持非常多的开源模型,比如:
在这里插入图片描述
更多支持的模型可以看这边:https://ollama.com/library

当然它还支持自定义模型,这边就不深入了,有兴趣的可以研究:https://github.com/ollama/ollama

装好之后,命令行运行:

ollama -v

查看到版本号说明安装好了。

接下来我们下载一个llama3 8B的模型:

ollama run llama3

这边可能需要比较长的时间,取决于你的网速。

下载好了就可以进行交互了:

其实现在已经搞定了,你可以让它帮你干活了,但是每次都要用命令行,有些人觉得不方便,而且也不能给别人用,下面我们就给它搞一个图形化界面,扩展一下功能,也能让局域网里的其他小伙伴也用上你的这个模型(注意多人同时访问会导致机器负载飙升,具体取决于你机器的性能和模型参数的大小)

参考文献

  • https://ollama.com/library
  • https://blog.laoda.de/archives/lobechat-ollama-deploy-offline
  • 26
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

安替-AnTi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值