一、DeepSeek概述
2025年1月20日,DeepSeek正式发布 DeepSeek-R1 模型,并同步开源模型权重。DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。 DeepSeek-V3和DeepSeek-R1两款大模型,成本价格低廉,性能与OpenAI相当,让硅谷震惊,甚至引发了Meta内部的恐慌,工程师们开始连夜尝试复制DeepSeek的成果。
华为云与硅基流动联合推出了基于昇腾云服务的 DeepSeek R1/V3 推理服务。该服务通过自研推理加速引擎,使 DeepSeek 模型在昇腾云服务上的性能达到了与高端 GPU 部署模型相当的效果。
在DeepSeek没有出现之前,AI模型需要依赖英伟达高端显卡才能运行,企业维护成本很高。但是在DeepSeek出现之后,极大的降低了显卡成本,使用低端的显卡也可以运行AI模型,性能也不差。
二、DeepSeek 蒸馏模型
DeepSeek 蒸馏模型是通过模型蒸馏技术从更大的 DeepSeek-R1 模型中提取知识并转移到更小的模型中,以实现更高的计算效率和更低的推理成本,同时保留强大的推理能力
。
蒸馏模型的核心优势
-
高效推理:蒸馏模型比原始 DeepSeek-R1 更小,计算效率更高,适合在资源受限的环境中部署 。
-
推理能力:尽管规模较小,但蒸馏模型仍保留了强大的推理能力,性能在多个基准测试中优于其他开源模型 。
-
开源可用性:蒸馏模型是开源的,允许研究人员和开发人员在各种应用中使用和构建 。
蒸馏模型的变体
DeepSeek-R1 蒸馏模型包括多个不同参数规模的版本,例如:
-
DeepSeek-R1-Distill-Qwen-1.5B
-
DeepSeek-R1-Distill-Qwen-7B
-
DeepSeek-R1-Distill-Qwen-14B
-
DeepSeek-R1-Distill-Qwen-32B
-
DeepSeek-R1-Distill-Llama-8B
-
DeepSeek-R1-Distill-Llama-70B
蒸馏模型的性能表现
-
DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上实现了 55.5% Pass@1,超越了 QwQ-32B-Preview 。
-
DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上实现了 72.6% Pass@1,在 MATH-500 上实现了 94.3% Pass@1 。
-
DeepSeek-R1-Distill-Llama-70B 在 AIME 2024 上实现了 70.0% Pass@1,在 MATH-500 上实现了 94.5% Pass@1 。