Deepseek免费无限量API无需本地部署就可用最大70B蒸馏模型

最新推荐文章于 2025-04-23 10:25:35 发布

shykevin

最新推荐文章于 2025-04-23 10:25:35 发布

阅读量3.4k

点赞数 24

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shykevin/article/details/145464839

版权

一、DeepSeek概述

2025年1月20日，DeepSeek正式发布 DeepSeek-R1 模型，并同步开源模型权重。DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。 DeepSeek-V3和DeepSeek-R1两款大模型，成本价格低廉，性能与OpenAI相当，让硅谷震惊，甚至引发了Meta内部的恐慌，工程师们开始连夜尝试复制DeepSeek的成果。

华为云与硅基流动联合推出了基于昇腾云服务的 DeepSeek R1/V3 推理服务。该服务通过自研推理加速引擎，使 DeepSeek 模型在昇腾云服务上的性能达到了与高端 GPU 部署模型相当的效果。

在DeepSeek没有出现之前，AI模型需要依赖英伟达高端显卡才能运行，企业维护成本很高。但是在DeepSeek出现之后，极大的降低了显卡成本，使用低端的显卡也可以运行AI模型，性能也不差。

二、DeepSeek 蒸馏模型

DeepSeek 蒸馏模型是通过模型蒸馏技术从更大的 DeepSeek-R1 模型中提取知识并转移到更小的模型中，以实现更高的计算效率和更低的推理成本，同时保留强大的推理能力。

蒸馏模型的核心优势

高效推理：蒸馏模型比原始 DeepSeek-R1 更小，计算效率更高，适合在资源受限的环境中部署。
推理能力：尽管规模较小，但蒸馏模型仍保留了强大的推理能力，性能在多个基准测试中优于其他开源模型。
开源可用性：蒸馏模型是开源的，允许研究人员和开发人员在各种应用中使用和构建。

蒸馏模型的变体

DeepSeek-R1 蒸馏模型包括多个不同参数规模的版本，例如：

DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Llama-70B

蒸馏模型的性能表现

DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上实现了 55.5% Pass@1，超越了 QwQ-32B-Preview 。
DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上实现了 72.6% Pass@1，在 MATH-500 上实现了 94.3% Pass@1 。
DeepSeek-R1-Distill-Llama-70B 在 AIME 2024 上实现了 70.0% Pass@1，在 MATH-500 上实现了 94.5% Pass@1 。

蒸馏模型的应用场

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。