基于 Ollama 进行本地大模型部署以及集成 Vs Code 的 Continue 插件（附离线部署方案

原创已于 2025-07-30 15:36:57 修改 · 1.3k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#ai #vscode #语言模型

于 2025-07-25 10:31:46 首次发布

学习专栏收录该内容

1 篇文章

订阅专栏

Ollama 是一个开源（free/open‑source）工具，旨在让你在本地（macOS、Linux 或 Windows）下载、运行和管理大型语言模型（LLMs），不必依赖云服务。

通过 Ollama，我们可以在电脑本地部署一个语言模型并通过聊天、集成 ide 的方式使用。

安装Ollama

首先前往 Ollama 官网进行根据对应操作系统下载

在这里插入图片描述
下载安装好之后打开，我们可以在菜单栏看到 Ollama 的图标，这时就Ollama 本体就已经准备就绪了。

下载模型

Ollama 只是一个调用模型的工具，所以我们需要下载不同的模型装载进 Ollama实现不同的功能，且性能不一样，越大型的模型速度越慢结果越精准对电脑要求也越高。现在我们有很多种下载模型的方法：

直接使用 Ollama 命令在 Ollama 仓库（Ollama Search）进行下载。

我们可以在上面的仓库地址中找到想要的模型，
在这里插入图片描述

以 DeepSeek-r1 为例，点进去之后我们能看到该模型有不同的版本，分别对应不同的参数规格。
在这里插入图片描述

我们复制想要下载的模型名称后，在终端（命令行）打开并输入下载命令等待下载

ollama pull deepseek-r1:8b

下载后我们就能在 ollama 中查看是否安装成功

ollama list

在这里插入图片描述
另有下载 guff 模型导入 ollama 的方式详见下方离线安装部分

启动 Ai Chat

安装模型后我们可以直接启动 Ollama 与 AI 进行对话，这是最简单的用法，也可用于调试性能及测试是否有问题。

ollama run deepseek-r1:8b

在这里插入图片描述
想要退出可以输入/exit 或者/bye，就此部署大模型成功。

集成到Vs Code实现代码补全

我们可以利用 Vscode 的 Continue 插件与 Ollama 进行对接。
下载 Continue 插件
注意，该插件根据不同操作系统有不同的构建，直接从 vscode 导出 vsix 不能用于不同操作系统导入，需要去插件市场单独下载对应的操作系统，如macos 的 Continue 插件如果直接从 macos 导出安装到 windows 则会报错在这里插入图片描述下载好之后左侧工具栏会出现 Continue 图标
]]
我们点击里面的AI 选择图标并点击本地模型（Local Assistant）右边的齿轮打开配置文件

根据你下载的模型配置一下关于模型（models）的信息，每个模型可配置字段包括（基于文档） :

name：本地标识模型的名称（必填）。
provider：来源，如 ollama、openai 等（必填）。
model：具体模型标识，如 llama3.1:8b、qwen2.5-coder:1.5b（必填）。
apiBase：自定义 API 地址，替代默认。
roles：角色功能数组，可选值如 chat, autocomplete, embed, edit, apply, summarize, rerank。
capabilities：覆盖自动检测，功能如 tool_use, image_input。
maxStopWords：控制停止词数量，避免 API 错误。
promptTemplates：指定模板（chat/edit/apply/autocomplete）。
chatOptions、embedOptions、defaultCompletionOptions：分别控制聊天、嵌入、完成参数（如温度、上下文长度、批次大小等）。
每个模型支持的功能不一样，需自行调试是否正常运行，如我下载的 qwen 就对联系文件进行 chat 不支持，在 chat 窗口提问会错误的返回错误信息。

比如配置好autocomplete 的 roles 后，我们就可以在编码时实现本地代码补全，至于速度根据电脑配置和模型规格决定，可以适当切换对比。

离线部署方案

离线部署需要：

用于下载模型的外网电脑
从外网传输文件到内网离线机器
足够的内网机器性能
模型文件（ollama 源文件或者 gguf 文件）
Modelfile 配置文件

下载模型

如果外网机器已下载安装 Ollama 并部署了模型，可以直接使用，好处就是可以使用 ollama 自己生成的 Modelfile，模型存储路径可以在 Ollama 的设置页面找到：
在这里插入图片描述
一般可以在以下路径找到模型文件：

macos

  ~/.ollama/models

windows

  C:\Users\<YourUsername>\AppData\Local\Ollama\Models
  或者
  C:\Users\<YourUsername>\.ollama\models

进入以上文件夹后进入源文件目录/blobs。
在这里插入图片描述
通过文件的大小判断哪个是模型本体，找出来通过自己的方式传输到内网。

然后通过命令获取这个模型的 modelfile 并保存为 Modelfile 文件传输到内网。

ollama show --modelfile <model-name>

当然也可以从头下载模型并自己编写 Modelfile
前往https://huggingface.co/搜索自己想要的模型的 gguf 版
在这里插入图片描述
点击进入详情并点击 Files and versions

选择合适的规格并下载，与此同时手动配置一个 Modelfile，以下为示例

FROM /Users/user/Download/qwen2.5-coder-3b-instruct-q3_k_m.gguf
TEMPLATE """{{- if .Suffix }}<|fim_prefix|>{{ .Prompt }}<|fim_suffix|>{{ .Suffix }}<|fim_middle|>
{{- else if .Messages }}
{{- if or .System .Tools }}<|im_start|>system
{{- if .System }}
{{ .System }}
{{- end }}
{{- if .Tools }}

安装部署

通过传输安装包在内网安装 Ollama 软件，
将 Modelfile 和模型本体文件存放到一个任意文件夹
通过命令创建 ollama 模型

 ollama create <new-model-name> -f <path/to/Modelfile>

运行成功后，即可通过 ollama list 查看新模型，并使用 ollama run my-tutor 进行推理

就此离线部署完成接下来就和上文的使用方式一样。

基于 Ollama 进行本地大模型部署以及集成 Vs Code 的 Continue 插件（附离线 部署方案

安装Ollama

下载模型

直接使用 Ollama 命令在 Ollama 仓库（Ollama Search）进行下载。

启动 Ai Chat

集成到Vs Code实现代码补全

离线部署方案

下载模型

安装部署

基于 Ollama 进行本地大模型部署以及集成 Vs Code 的 Continue 插件（附离线部署方案