人人都能上手部署DeepSeek-R1蒸馏模型:应用昇思+香橙派 AI Pro实践全流程

前序

2025年蛇年春节,DeepSeek强势出圈,以十分之一的训练成本比肩OpenAI GPT-4o的性能,重塑AI世界新秩序。DeepSeek向全世界开源,为全球的数据科学家、AI爱好者乃至中小开发者开辟了一条通往前沿技术的道路。

而DeepSeek-R1-Distill-Qwen-1.5B 是DeepSeek-R1在 Qwen系列开源模型上进一步优化和蒸馏得到的轻量化语言模型,通过蒸馏技术实现效率与性能的平衡,适合于资源受限场景。

笔者所在的团队之前就有尝试在开发板上部署DeepSeek相关蒸馏模型,但苦于一直没有成功,或者部署成功后仅利用了CPU的算力,导致执行性能很慢。在2月10日了解到DeepSeek-R1-Distill-Qwen-1.5B模型基于MindSpore可以跑在香橙派AIpro了,非常激动,当天晚上便在香橙派AIpro(20T)24G开发板上把模型部署起来了。

那么接下来,我将结合自己的实践经验,分享如何基于昇思MindSpore在香橙派开发板上实现DeepSeek-R1-Distill-Qwen-1.5B的部署。

开源链接

DeepSeek-R1-Distill-Qwen-1.5B部署代码:

https://github.com/mindspore-courses/orange-pi-mindspore/tree/master/Online/17-DeepSeek-R1-Distill-Qwen-1.5B)

1.DeepSeek简介

DeepSeek 是一个高性能的生成式 AI 模型,由 DeepSeek 团队开发。它在多个基准测试中表现出色,尤其是在数学推理和编程任务上。DeepSeek 的不同版本(如 R1、V2、V3 等)在架构和训练方法上进行了优化,以提高模型的推理能力和效率。

2. 蒸馏技术

蒸馏技术是一种将大型模型的知识和推理能力转移到小型模型中的方法。通过蒸馏,小型模型可以在保持高效性的同时,获得与大型模型相近的性能。DeepSeek 的蒸馏模型通过以下步骤实现:

  • 教师模型:使用大型模型(如 DeepSeek-R1-70B)的推理能力,提取其在复杂任务(如数学、编程)中的逻辑链生成模式。

  • 学生模型:将这些推理能力迁移到小型模型(如 Qwen-1.5B、Llama3-70B)中,通过注意力对齐损失和输出分布匹配,保留关键参数。

  • 动态权重剪枝:根据目标场景动态保留关键参数,进一步优化模型性能。

3. DeepSeek-R1-Distill-Qwen-1.5B 模型

DeepSeek-R1-Distill-Qwen-1.5B 是一个经过蒸馏的轻量级模型,具有以下特点:

  • 参数量:1.5 亿参数,模型规模小,资源消耗低。

  • 推理能力:在数学和逻辑推理任务中表现出色,例如在 AIME 2024 数学竞赛中,通过率达到了 28.9%,显著高于 GPT-4o 和 Claude 3.5。

  • 适用场景:适用于轻量级任务,如短文本生成、基础问答等。可以在资源受限的设备上运行。

任务主角介绍

香橙派 AI Pro 20T 是一款高性能的 AI 开发板,专为边缘计算和 AI 应用设计。

以下是其主要特点和功能:

1. 高性能处理器

  • CPU:4核64位处理器,支持高性能计算。

  • AI 处理器:集成 AI 处理器,提供 20TOPS 的 AI 算力,能够有效加速目标识别、图像分类等 AI 应用。

2. 大内存支持

  • 运行内存:支持 24GB 运行内存,确保各种复杂应用都能流畅运行。

  • 存储扩展:支持 SATA/NVMe SSD 2280 硬盘,增加海量数据存储空间。

3. 丰富的接口

  • 视频输出:支持双 HDMI 视频输出,支持 4K 高清输出,还支持一个 MIPI DSI 屏输出。

  • 摄像头输入:支持两个 MIPI 接口摄像头输入。

  • 网络接口:具有 2 个 PCIe 扩展的 2.5G 以太网口,实现更快的数据传输速度。

  • 其他接口:包括 USB 3.0、Type-C、双 HDMI 2.0、双 2.5G 以太网、M.2 插槽等。

4. 操作系统支持

  • 支持 Ubuntu 和 OpenEuler 操作系统。

5. 应用场景

  • AI 教学实训:适合 AI 教学和实训,帮助学生和开发者快速上手。

  • 智能小车与机械臂:可用于智能小车、机械臂等项目。

  • 边缘计算:适用于边缘计算场景,快速处理数据。

  • 智能家居与安防:可用于智能家居、智能安防等领域。

6. 性能体验

  • 负载能力:能够实时处理 60FPS 的视频,推理一张 640x640 的图像只需 15-20 毫秒。

  • 散热效果:配备散热风扇,连续运行 3 小时后,板子的温度依然较低。

  • 噪音水平:开机启动时有 6-10 秒左右的较大声音,但平时运行时几乎无声。

7. 开发与部署

  • 开发友好:提供丰富的代码参考样例,方便开发者快速上手。

  • 烧录系统:支持通过 SD 卡加载预配置好的镜像系统,插入设备后就能直接登录并开始使用。

好了,经过前边对于deepseek和香橙派的介绍,想必大家都已经大概了解了我们这次实操的主角的一些基本信息。那么下面我们进入实操环节:

前期准备

硬件设备

24G20T香橙派AIpro开发板一个、鼠标、键盘、显示屏、网线、电源线

可参考:香橙派AIpro快速上手指南-技术干货-昇腾社区

### 关于 DeepSeek-R1-Distill-Qwen-1.5B 模型 #### 模型简介 DeepSeek-R1-Distill-Qwen-1.5B 是一款经过蒸馏优化的大规模预训练语言模型,参数量约为 1.5B。该模型基于 Qwen 架构进行了改进和优化,在保持较高性能的同时降低了计算资源需求[^2]。 #### 获取文档与下载链接 对于希望获取更多技术细节和技术文档的研究人员或开发者来说,可以访问官方提供的两个平台来了解详细的 API 接口说明以及使用指南: - **ModelScope**: 提供国内用户更便捷的访问方式,网址为 [https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B](https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B)[^1] - **Hugging Face**: 面向全球用户提供服务,地址位于 [https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B?local-app=vllm](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B?local-app=vllm) 这两个网站不仅提供了模型本身的下载功能,还包含了丰富的教程和支持材料帮助使用者快速上手。 #### 安装配置指导 针对 Windows 11 用户环境下的具体安装步骤如下所示: ```bash pip install transformers torch accelerate ``` 完成上述依赖项安装之后,可以从 HuggingFace Hub 加载此模型实例并执行简单的测试任务: ```python from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B") model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B") input_text = "你好" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 此外,考虑到实际应用场景中的不同需求,开发团队特别实现了两种推理模式——即流式生成(streaming generation)和非流式生成(non-streaming generation),以便更好地满足实时性和响应速度的要求[^3]。
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值