人人都能上手部署DeepSeek-R1蒸馏模型：应用昇思+香橙派 AI Pro实践全流程

冰潔

已于 2025-02-21 18:11:03 修改

阅读量2.8k

点赞数 60

文章标签：人工智能 mindspore deepseek 香橙派 mindnlp CANN 昇腾

于 2025-02-11 12:52:35 首次发布

本文链接：https://blog.csdn.net/prtinf48_9/article/details/145562210

版权

前序

2025年蛇年春节，DeepSeek强势出圈，以十分之一的训练成本比肩OpenAI GPT-4o的性能，重塑AI世界新秩序。DeepSeek向全世界开源，为全球的数据科学家、AI爱好者乃至中小开发者开辟了一条通往前沿技术的道路。

而DeepSeek-R1-Distill-Qwen-1.5B 是DeepSeek-R1在 Qwen系列开源模型上进一步优化和蒸馏得到的轻量化语言模型，通过蒸馏技术实现效率与性能的平衡，适合于资源受限场景。

笔者所在的团队之前就有尝试在开发板上部署DeepSeek相关蒸馏模型，但苦于一直没有成功，或者部署成功后仅利用了CPU的算力，导致执行性能很慢。在2月10日了解到DeepSeek-R1-Distill-Qwen-1.5B模型基于MindSpore可以跑在香橙派AIpro了，非常激动，当天晚上便在香橙派AIpro（20T）24G开发板上把模型部署起来了。

那么接下来，我将结合自己的实践经验，分享如何基于昇思MindSpore在香橙派开发板上实现DeepSeek-R1-Distill-Qwen-1.5B的部署。

开源链接

DeepSeek-R1-Distill-Qwen-1.5B部署代码：

https://github.com/mindspore-courses/orange-pi-mindspore/tree/master/Online/17-DeepSeek-R1-Distill-Qwen-1.5B)

1.DeepSeek简介

DeepSeek 是一个高性能的生成式 AI 模型，由 DeepSeek 团队开发。它在多个基准测试中表现出色，尤其是在数学推理和编程任务上。DeepSeek 的不同版本（如 R1、V2、V3 等）在架构和训练方法上进行了优化，以提高模型的推理能力和效率。

2. 蒸馏技术

蒸馏技术是一种将大型模型的知识和推理能力转移到小型模型中的方法。通过蒸馏，小型模型可以在保持高效性的同时，获得与大型模型相近的性能。DeepSeek 的蒸馏模型通过以下步骤实现：

教师模型：使用大型模型（如 DeepSeek-R1-70B）的推理能力，提取其在复杂任务（如数学、编程）中的逻辑链生成模式。
学生模型：将这些推理能力迁移到小型模型（如 Qwen-1.5B、Llama3-70B）中，通过注意力对齐损失和输出分布匹配，保留关键参数。
动态权重剪枝：根据目标场景动态保留关键参数，进一步优化模型性能。

3. DeepSeek-R1-Distill-Qwen-1.5B 模型

DeepSeek-R1-Distill-Qwen-1.5B 是一个经过蒸馏的轻量级模型，具有以下特点：

参数量：1.5 亿参数，模型规模小，资源消耗低。
推理能力：在数学和逻辑推理任务中表现出色，例如在 AIME 2024 数学竞赛中，通过率达到了 28.9%，显著高于 GPT-4o 和 Claude 3.5。
适用场景：适用于轻量级任务，如短文本生成、基础问答等。可以在资源受限的设备上运行。