如何使用 Ollama 下载、本地部署和使用 DeepSeek 模型

Sky-001

已于 2025-02-27 14:06:10 修改

阅读量4.2w

点赞数 40

文章标签：开源软件 github

于 2025-01-30 14:34:41 首次发布

本文链接：https://blog.csdn.net/qq_50182135/article/details/145398965

版权

近年来，随着大语言模型的快速发展，越来越多的开发者希望能够在本地部署和使用这些模型，以便更好地控制数据隐私和计算资源。本文将介绍如何使用 Ollama 工具下载、本地部署 DeepSeek 模型，并探讨模型量化对 GPU 性能的影响。

1. 什么是 Ollama？

Ollama 是一个开源工具，旨在简化大语言模型的本地部署和管理。它支持多种模型格式，并提供简单的命令行接口，方便开发者快速下载、运行和测试模型。

2. 下载和安装 Ollama

2.1 安装 Ollama

Ollama 支持多种操作系统，包括 Linux、macOS 和 Windows。以下是安装步骤：

访问 Ollama 的官方网站：Ollama。（Windows下载速度限制请查看我的另一篇文章：ollama版本国内加速下载_ollama下载-CSDN博客）
根据你的操作系统下载对应的安装包。
安装完成后，打开终端或命令行工具，输入以下命令验证安装是否成功：
ollama --version
如果显示版本号，说明安装成功。

2.2 下载 DeepSeek 模型

Ollama 提供了一个模型库，可以轻松下载预训练的模型。以下是下载 DeepSeek 模型的步骤：

打开终端，运行以下命令：

ollama pull deepseek-r1

这将从 Ollama 的模型库中下载 DeepSeek 模型。
下载完成后，可以使用以下命令查看已下载的模型：

ollama list

3. 本地部署 DeepSeek 模型

3.1 运行模型

下载完成后，你可以通过以下命令在本地运行 DeepSeek 模型：（具体模型的部署查看：deepseek-r1）

ollama run deepseek-r1

运行后，你将进入交互式命令行界面，可以直接与模型对话。

3.2 使用 API 调用

如果你希望通过代码调用模型，Ollama 提供了简单的 HTTP API。以下是一个 Python 示例：

import requests url = "http://localhost:11434/api/generate" data = { "model": "deepseek-r1", "prompt": "你好，DeepSeek！" } response = requests.post(url, json=data) for line in response.iter_lines(): if line: print(line.decode('utf-8'))

4. 模型量化与 GPU 性能优化

4.1 什么是模型量化？

模型量化是一种通过降低模型参数的精度（如从 32 位浮点数降到 8 位整数）来减少模型大小和计算量的技术。量化可以显著提高模型的推理速度，并降低对 GPU 资源的需求。

4.2 量化 DeepSeek 模型

Ollama 支持对模型进行量化。以下是量化的步骤：

使用以下命令对 DeepSeek 模型进行量化：

ollama quantize deepseek-r1 --bits 8

这将生成一个 8 位量化的模型版本。
量化完成后，你可以通过以下命令运行量化模型：

ollama run deepseek-r1-8bit

4.3 GPU 性能对比

量化后的模型在 GPU 上的性能会有显著提升。以下是一些性能对比数据：

模型版本	模型大小	推理速度（GPU）	显存占用
DeepSeek（原始）	10 GB	50 ms/token	12 GB
DeepSeek（8bit）	2.5 GB	20 ms/token	3 GB

从表中可以看出，量化后的模型不仅体积更小，推理速度更快，而且显存占用也大幅降低。

5. 总结

通过 Ollama，我们可以轻松下载、本地部署和量化 DeepSeek 模型。量化技术可以显著提升模型的推理性能，并降低对 GPU 资源的需求。如果你希望在本地运行大语言模型，Ollama 是一个非常值得尝试的工具。

赶快访问 Ollama 官网下载并体验吧！