deepseek分析及应用

晶晶在发光

于 2025-03-06 09:18:23 发布

阅读量1k

点赞数 18

文章标签：语言模型

本文链接：https://blog.csdn.net/m0_56299345/article/details/146058781

版权

Deepseek现状介绍

背景介绍

deepSeek是一家中国人工智能公司，成立于2023年7月17日，总部位于浙江杭州。它由量化资管巨头幻方量化创立，专注于大语言模型（LLM）及相关AI技术的研发。

DeepSeek亮点

（1）DeepSeek是一款大语言模型（LLM），主打“极致性价比”。它能写代码、解数学题、做自然语言推理，性能比肩OpenAI的顶尖模型o1，但成本却低到离谱——训练费用仅557.6万美元，是GPT-4o的十分之一，API调用成本更是只有OpenAI的三十分之一。

（2）Deepseek有望改变AI生态，DeepSeek的成功有望改变现有AI的产业格局，一方面是中国在全球AI产业的竞争形态，另一方面是大模型开源与闭源的竞争形态。

1）对于训练而言，最引人注目的自然是FP8的使用。DeepSeek-V3是第一个（至少在开源社区内）成功使用FP8混合精度训练得到的大号MoE模型。

2）与OpenAI依赖人工干预的数据训练方式不同，DeepSeek R1采用了R1-Zero路线，直接将强化学习应用于基础模型，无需依赖监督微调（SFT）和已标注数据。

3）低成本模型有望引领AI产业“新路径”：开源+MOE。

4）开源VS闭源：开源重构AI生态，与闭源共同繁荣下游。

DeepSeekR1技术及使用

DeepSeekR1的技术关键

其在于创新的训练方法。与OpenAI依赖人工干预的数据训练方式不同，DeepSeekR1采用了R1-Zero路线，直接将强化学习应用于基础模型，无需依赖监督微调（SFT）和已标注数据。

R1的总体训练过程如下：

1）从base模型开始：使用量少、质量高的冷启动数据(colddata)来sftbase模型，使得base模型可以有个良好的初始化；使用RL提升模型的推理能力；在RL阶段接近收敛时，用这个时候的checkpoint生成高质量的数据，将它们与现有的sft数据混合，创建新的sft数据集；

2）再次从base模型开始：使用新创建的sft数据集做finetune；执行二阶段RL；得到最终的r1

低训练成本+高性能表现，使得DeepSeek-V3成为国产模型之星。

DeepSeek-V3性能表现令人惊叹：不仅全面超越了Llama3.1405B，还能与GPT-4o、Claude3.5Sonnet等顶尖闭源模型正面竞争。更令人瞩目的是，DeepSeek-V3的API价格仅为Claude3.5Sonnet的1/15，堪称“性价比之王”。DeepSeek-V3的预训练阶段在不到两个月内完成，并花费了2664KGPU小时。加上119KGPU小时的上下文长度扩展和5KGPU小时的后训练，DeepSeek-V3的完整训练成本仅为2.788MGPU小时。假设H800GPU的租赁价格为每GPU小时2美元，总训练成本仅为5.576M美元。

推理模型vs非推理大模型

推理模型：DeepSeek-R1，GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。推理大模型：推理大模型是指能够在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。

非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。但专项任务需依赖提示语补偿能力•例如：GPT-3、GPT-4（OpenAI），BERT（Google），主要用于语言生成、语言理解、文本分类、翻译等任务。