一文彻底看懂DEEPSEEK为何能够如此优秀(ds的深度解析)

 1.deepseek和其它LLM的核心区别

首先,我们要明白的是ds和其他LLM的最大区别在于,它是完全自主训练出来的,解释下来其实是,其它的大语言模型靠的其实是人类反馈强化学习(也就是说在他们训练大模型的时候,向大模型问问题,如果它回答不出来或者回答错误,工程师就会给它一个类似于标准答案的数据集让他训练的吃下去,这就加快了LLM的训练过程,但减弱了它本身的思考能力),因为他们在做大语言模型的时候是有明确的kpi来催促着他们尽早完成这个项目的,而ds训练的初衷其实只是为了辅助深度求索公司来完成他们对于股市的预测(好像是,不过不重要,终极缘由是ds项目没有kpi)。而ds的训练过程中,人类工程师向其问问题,当ds回答错误时,人类工程师只会说“你再想想”,如此反复,便得到了一个较为长远的思考模型。

2.deepseek受人欢迎的缘由

其次,让他真正火起来的是,它本身是开源的模型,但却能够达到接近甚至在有的方面超越openai等闭源模型的效果(且训练成本出奇的低,近百倍差距)。那什么是开源呢,主要其实就是公开了ds的论文,模型权重,代码,这三个方面(要注意的是无论再怎样开源,每个LLM的训练的数据集是不会公开的,这需要大量的筹备工作,但我们个人或公司在设备条件允许的情况下,理论上是可以训练出独属于我们自己的会思考推理的专家系统的,这也是笔者认为ds给我们带来的最重要的部分)。

3.deepseek的创新行为(核心)

接下来,就要说一下,ds模型在模型和训练上主要都做了哪些创新行为(笔者仅阐述个人认为最为显著的部分,且我会尽可能用较为简单的语言来向大家解释该行为和能够带来的效果。如需阅读详细创新内容和专业性阐述,请自行去翻阅ds发出的各种论文报告或者去看笔者发布的ds技术报告的总结性文章)

  1. 结构上的改变,ds采用了MoE架构(混合专家),也就是将原本串行解决问题的思路换成了并行,通俗来做个比喻就是,之前去医院诊断病情都是需要逐个医师来看一下能不能解决你的问题,而现在可以通过方法直接大家一起来看,看哪个才是真正可以解决你问题的医师,然后直接让他来解决。也就是将原本的单一混合专家系统给改换成,多位专家,这就显著提高了效率。(其实上述内容专业性一点来说应该涉及到了多头潜在注意力机制MLA,其效果和标准多头注意力机制相较主要是可以大大减少推理过程中的KV缓存开销)
  2. 训练策略上的创新,首先就是无辅助损失的负载均衡策略:意即通过动态更新调整专家的负载,防止系统崩溃。其实简单来说,就是根据不同专家的工作量来动态调整其权重,从而避免服务器响应过慢甚至崩溃。其次是多Token预测(MTP):在每个位置预测多个后续Token,增强数据利用效率与推理规划能力。相当于是考试时对一道很难的题目的每一个步骤都提出多种解法,从而大大增强了解题的正确性和多种可能性。接着就是两个训练框架上的优化,一个是FP8混合精度的训练:ds在超大规模模型上,首次验证了FP8混合精度训练框架的有效性,结果就是显著提升了训练速度并降低了GPU的内存占用(FP8模型详情可自行搜索)。另一个是其通过重计算RMSNorm、低精度存储(如BF16优化器状态)减少了显存的消耗。最后就是一个简单的通信优化,这里就不多做介绍了。
  3. 再者说说它训练内容上的创新,首先是大量的数据集(14.8个T的Token),引入了FIM来提高补全代码的能力,且支持多语言,强化推理内容所占比例。且通过两阶段扩展,结合YaRN位置编码,支持128k上下文窗口,使得其在上下文的对话联系“距离”更长了(可以说ds的记忆力变得更好了,可以记得更加长的文本)。而对于强化学习部分,ds是支持自奖励机制的,利用模型自身投票反馈优化生成质量,就可以理解成一个正向循环,不停的夸自己,再不停的学习,最终生成一个合格的模型。

上述大致就是使得ds能够以低成本,高回报实现出来的主要创新部分(笔者自己认为主要的应该没有什么遗漏了,当然其它模型有的优秀部分,ds也会有,不然也难以造就如此伟大的LLM出世)。

对于deepseek的详细技术报告的主要内容的总结,请看笔者其他作品。

deepseek详细技术报告链接:

DeepSeek-V3/DeepSeek_V3.pdf at main · deepseek-ai/DeepSeek-V3 · GitHub

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值