deepseek-R1 版本 详细部署步骤,以及部署问题整理!

        deepseek r1 推理模型最近非常火爆,以至于 服务一直不稳定,无法正常访问,这篇文章介绍了如何在本地部署 deepseek r1 模型,以及 如何在 pc 端、app 手机端离线使用本地部署的模型。

        最后,介绍一种在手机端侧直接运行 deepseek 模型的方法,该方法直接将模型下载到手机端侧运行,完全不依赖任何环境。

  1. 下载安装ollama

来到 ollama.com/ 官网,下载 ollama 应用,下载后,直接安装即可。

        下载完成后,来到 官网搜索需要下载的模型:

        这里选择 7b模型,或者选择1.5b模型(模型越大,需要的内存越大),选择完成后,复制命令,如果是 mac 电脑,直接打开 terminal ,在命令行中输入命令:

ollama run deepseek-r1:7b

等待模型下载完成后,就可以直接进行对话了。

但是这样只是命令行的交互,并不方便,而且也没有对话记忆等功能。所以我们还要进行下一步。

  1. 下载应用 chatbox

来到 官网:chatboxai.app/zh,直接下载安装。支持 windows、macos、ios、android 等多个平台。

下载完成之后,下面以 MacOS 和 Android 平台来介绍如何使用,其他平台的操作类似。

MacOS 平台:

选择模型为deepseek:

设置完成后,就可以直接对话啦。

Android 平台:

在手机上使用的原理就是将 PC 电脑上的本地部署环境通过暴露端口同步给手机进行连接。所以,

我们需要按照以上步骤在 PC 电脑上配置好本地部署的环境,然后通过 Ngrok 工具暴露私有端口到互联网。

首先 注册一个 Ngrok 账号,在terminal中输入下面的命令,记得替换$your_authtoken部分为实际的token,配置好 auth token:

然后在 terminal 终端中输入:

brew install ngrok
ngrok http 11434 --host-header="localhost:11434"
brew install ngrok ngrok http 11434 --host-header="localhost:11434"

运行成功之后,复制下面的链接,粘贴到手机的设置中去即可。

下载 安装 github.com/JHubi1/olla… ollama app 应用。填入复制的链接即可。这样,在手机上就可以访问到我们部署到 PC 本地的模型了。

浏览器插件:

        首先,在插件商店搜索 Page assist 浏览器插件添加到Chrome 或者是 edge 浏览器中,然后在设置中设置 ollama 配置,可以将最大令牌数设置大一点,这样就可以支持长对话了。

主页面上可以选择deepseek模型开始对话了。

        以上,介绍了本地部署 deepseek模型的步骤,以及通过不同的终端(PC端、APP端、浏览器插件)来与本地部署模型交互的过程。

虽然本地部署的模型一般没有办法部署完全版本的大模型,但是本地部署模型也有诸多好处:

  1. 本地部署不依赖于第三方服务,因此不会因云服务的波动或故障而导致模型运行中断,例如现在 deepseek服务不稳定,经常性的无法访问,但是,通过本地部署就可以无限制的使用。

  2. 本地部署可以在内部网络中隔离模型运行环境,防止数据泄露或受到外部攻击影响。能够更好地保护个人隐私。

  3. 本地部署可以充分利用本地硬件(如GPU或TPU)的高性能计算能力,不需要依赖云端算力。

APP端完全离线运行:

        最后,介绍一种完全离线,不依赖 PC端本地环境的纯 APP 端本地运行 Deepseek r1 模型的方案。

第一步:下载 Temux linux 环境模拟器。来到官网,下载 Android app 进行安装:termux.dev/en/。

Termux 是一个在 Android 系统上提供类似于 Linux 环境的开源应用程序。实际上就是在Android 设备上的 Linux虚拟环境,可以在这个沙盒环境中安装 llama.app 来本地运行模型。

        llama.cpp 是一个开源项目,用于在设备上本地运行深度学习模型。项目中包含的工具和库可以让你轻松地在个人设备(例如电脑或手机)上加载和运行模型,而无需互联网连接或依赖外部服务。

以下是具体步骤:

        使用 Termux,就可以像 Linux 环境一样安装和运行 llama.cpp。进入 Termux shell 后,安装必要依赖:

apt update && apt upgrade -y $ apt install git cmake

获取 llama.cpp 以及 安装编译 llamacpp

git clone <https://github.com/ggerganov/llama.cpp> cd llama.cpp

使用 Cmake 编译 llamacpp:

cmake -B build cmake --build build --config Release -j 8

编译完成后,下载deepseek r1 蒸馏后的1.5b的模型,模型格式 为 gguf:这里注意要复制正确的下载链接(红框中的按钮)

huggingface.co/unsloth/Dee…

执行以下命令,下载 deepseek模型到 手机上。下载过程中可能无任何输出,等待即可(需要手机科学上网能访问 huggingface.co 网站才行)。

curl -fsSL https://huggingface.co/unsloth/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/resolve/main/DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf -o ~/deepseekr115bq4km.gguf

确保当前目录为 llama.app/ 然后运行以下命令:

./build/bin/llama-cli -m ~/deepseekr115bq4km.gguf -c 4096 -p "You are a helpful assistant."

        运行命令后,就可以开启对话啦,但是由于android 设备性能的限制,输出较慢,但是该方法可以完全离线执行,不依赖任何环境。通过该方法也可以感受一下我们距离真正在端侧部署大模型进行应用还有多远。以后有新的更小的模型,也可以通过该方法来验证下在手机端上的性能。

容器化 OLLAMA概念 

Ollama介绍,搭建本地AI大模型deepseek,并使用Web 界面调用|命令提示符|ollama_网易订阅

### DeepSeek R1 部署详细步骤 对于 DeepSeek R1部署,具体操作涉及多个方面,包括环境准备、模型加载配置以及服务启动等环节。 #### 环境准备 为了成功部署 DeepSeek R1 模型,需先确保运行环境中已安装必要的依赖库和工具。通常情况下,推荐使用 Python 虚拟环境来管理项目所需的包版本。此外,还需确认 GPU 设备驱动正常工作并能够被 PyTorch 或其他框架识别[^2]。 ```bash conda create --name deepseek_env python=3.8 conda activate deepseek_env pip install torch torchvision torchaudio cuda-toolkit ``` #### 加载与配置模型 通过 `vllm` 工具可方便地完成对预训练好的 DeepSeek R1 模型的加载和服务化发布。命令行参数允许灵活调整张量切分大小(tensor parallel size),最大输入长度(max model length)以及其他性能优化选项。 ```bash vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \ --tensor-parallel-size 2 \ --max-model-len 32768 \ --enforce-eager ``` 上述指令中指定了两个GPU用于加速推理过程(`--tensor-parallel-size 2`);设置单次请求的最大token数量不超过32K(`--max-model-len 32768`);强制启用即时执行模式(`--enforce-eager`)以提高响应速度。 #### 启动API服务 一旦完成了前面提到的各项准备工作之后,就可以利用 vLLM 提供的服务接口对外提供 API 访问功能了。此时可以通过 HTTP 请求向指定端口发送 JSON 格式的文本数据来进行交互测试。 ```json { "prompt": "你好啊", "max_tokens": 50, "temperature": 0.7, "top_p": 0.9 } ``` 以上即为完整的 DeepSeek R1 部署流程概述及其对应的操作指南。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

PHP代码

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值