Ollama本地部署大语言模型

Ollama是一个开源框架,简化了在本地Docker容器中部署和管理大型语言模型的过程,提供模型打包、跨平台支持、命令行操作和内存优化。它支持多种模型,如Llama2、CodeLlama等,并强调了Windows预览版和资源需求指导。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Ollama本地部署大语言模型

Ollama是一个用于在本地运行大型语言模型(LLM)的开源框架,它提供了诸多实用的功能和特点:

  1. 简化部署:Ollama旨在简化在Docker容器中部署LLM的过程,使管理和运行这些模型更加便捷。

  2. 捆绑模型组件:该框架将模型权重、配置和数据捆绑到一个称为Modelfile的包中,这有助于优化设置和配置细节,包括GPU的使用情况。

  3. 支持多种模型:Ollama支持多种大型语言模型,例如Llama 2、Code Llama、Mistral、Gemma等,并且允许用户根据具体需求定制和创建自己的模型。

  4. 跨平台支持:Ollama支持macOS和Linux平台,同时Windows平台的预览版也已发布。用户只需访问Ollama的官方网站下载对应平台的安装包即可进行安装。

  5. 命令行操作:安装完成后,用户可以通过简单的命令行操作来启动和运行大型语言模型。例如,要运行Gemma 2B模型,只需执行命令“ollama run gemma:2b”。

  6. 资源要求:为了流畅运行大型模型,Ollama需要一定的内存或显存。具体来说,至少需要8GB的内存/显存来运行7B模型,至少需要16GB来运行13B模型,而运行34B的模型则至少需要32GB。

此外,Ollama还提供了类似OpenAI的简单内容生成接口和类似ChatGPT的聊天界面,无需开发即可直接与模型进行交互。它还支持热切换模型,即可以在不重新启动的情况下切换不同的模型,非常灵活多变。

总的来说,Ollama为想要在本地计算机上运行和实验大型语言模型的用户提供了一个便捷的解决方案,适用于学术研究或个人项目开发。

使用家用PC实践记录如下:

1. 环境配置

本次使用的操作系统及硬件信息如下:

  • 操作系统:windows11 23H2
  • CPU: intel i7-12700
  • MEM: 16GB
  • GPU: NVIDIA GeForce GTX 1650
  • Disk: 512GB SSD

2. 安装Ollama

  1. macOS: Download

  2. Windows: Download

  3. Linux

    一键命令安装:curl -fsSL https://ollama.com/install.sh | sh

    手动安装:Manual install instructions

  4. Docker: Ollama Docker image

  5. library安装

3. 运行模型

通过如下命令下载运行模型:

ollama run llama2

本文使用windows运行llama2进行测试,windows版本安装完成后会弹出如下窗口:

运行llama2,首次运行会下载模型文件:

注意:

后续运行直接在cmd运行命令即可。运行llama2需要pc具有足够的内存,如果内存不足进程无法启动。

ollama支持的模型列表

注意:
运行7B模型至少需要8GB内存,运行13B模型至少需要16GB内存,运行33B模型至少需要32GB内存。

ModelParametersSizeDownload
Llama 38B4.7GBollama run llama3
Llama 370B40GBollama run llama3:70b
Mistral7B4.1GBollama run mistral
Dolphin Phi2.7B1.6GBollama run dolphin-phi
Phi-22.7B1.7GBollama run phi
Neural Chat7B4.1GBollama run neural-chat
Starling7B4.1GBollama run starling-lm
Code Llama7B3.8GBollama run codellama
Llama 2 Uncensored7B3.8GBollama run llama2-uncensored
Llama 2 13B13B7.3GBollama run llama2:13b
Llama 2 70B70B39GBollama run llama2:70b
Orca Mini3B1.9GBollama run orca-mini
LLaVA7B4.5GBollama run llava
Gemma2B1.4GBollama run gemma:2b
Gemma7B4.8GBollama run gemma:7b
Solar10.7B6.1GBollama run solar

4. 参考资料

### 如何在本地部署 Ollama模型 #### 准备工作 为了成功安装和运行 Ollama,需确保满足以下条件[^1]: - 安装 Docker 或具备编译环境。 - 至少有 8GB 的 RAM 来运行较大的模型。 - 支持 ARM 架构的设备(如 Apple M1/M2 芯片),或者兼容 x86_64 的硬件。 #### 下载与安装 Ollama 通过命令行工具完成 Ollama 的下载和初始化操作。以下是具体方法: ```bash brew install ollama # macOS 用户可以使用 Homebrew 安装 ``` 对于 Linux 和 Windows (WSL),可直接从官方仓库获取二进制文件并执行安装脚本。 #### 启动服务 一旦安装完毕,可以通过如下指令启动 Ollama 并加载默认的大规模语言模型 Llama 2: ```bash ollama run llama2 ``` 如果希望上传自定义模型(例如 Qwen1.5-0.5B-Chat-GGUF),则按照以下流程处理[^2]: 1. 将预训练好的 GGUF 文件放置于目标服务器路径下; 2. 使用 `ollama create` 命令注册新模型实例; ```bash ollama create qwen --file /path/to/Qwen1.5-0.5B-Chat-GGUF.gguf ``` #### 开始交互会话 无论是内置还是外部导入的模型,在确认无误之后都可以立即进入对话模式: ```bash ollama chat qwen ``` 此时即可体验基于该特定架构下的自然语言理解能力以及生成质量表现。 #### 自定义配置选项 除了基本功能外,还可以调整一些参数来优化性能或适配不同场景需求: - `-m/--model`: 明确指定要使用的模型名称。 - `--gpu-layers`: 控制分配给 GPU 的层数量,默认情况下仅依赖 CPU 计算资源。 示例代码片段展示如何高效调用 Code-Llama 模型的同时充分利用显卡加速效果: ```python import subprocess subprocess.run(["ollama", "run", "-m", "code-llama", "--gpu-layers=32"]) ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lldhsds

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值