DeepSeek 公开新的模型权重

 

 

DeepSeek - V3是一款开源大语言模型,在关键基准测试中超越了Llama 3.1 405B和GPT - 4o ,尤其在编码和数学任务中成绩优异。

除特定受限应用(军事、伤害未成年人、生成虚假信息等)外,模型权重开源,可在线下载。

工作原理

  • 混合专家架构(MoE):DeepSeek - V3是MoE型Transformer模型,有6710亿个参数,运行时370亿参数激活。相比Llama 3.1 405B,训练时间大幅缩短(279万个GPU小时,不到其1/10 ),成本仅560万美元。

  • 训练数据:使用约15万亿词元训练,编码和数学数据占比高于DeepSeek - V2。借助DeepSeek - R1和DeepSeek - V2.5的输出进行多任务微调,再用组相对策略优化的强化学习算法提升多领域性能。

  • 双词元预测:借鉴先前研究,训练模型预测下两个词元。先按常规预测第一个词元,再用额外层预测第二个词元(推理时不使用该额外层)以提升性能。

  • 多头潜在注意力:沿用DeepSeek - V2的多头潜在注意力机制,相比其他注意力变体,执行时更节省内存。

  • 专家组合模式:和DeepSeek - V2相似,结合专用(路由)专家与共享专家。针对特定输入从256个专家选8个,同时设一个处理所有输入的共享专家。

测试结果

  • 全面超越部分模型:DeepSeek测试显示,DeepSeek - V3全面超越Llama 3.1 405B和Qwen 2.5 72B ,性能与GPT - 4o相当。

  • 编码任务表现:在编码任务的七个基准测试中,DeepSeek - V3在五项中占优。但在Polyglot测试(评估多语言复杂代码生成能力)中,输给了o1 ,不过超过了Claude Sonnet 3.5。

  • 语言任务表现:在语言任务中,与Claude 3.5 Sonnet表现相近,不同任务有不同得分高低。

OpenAI的o1模型依靠能动工作流程(如反思输出、使用工具)表现出色,而DeepSeek - V3未依赖此类流程却取得优异成绩。

重要意义

  • 开源模型的竞争:开源模型对闭源模型构成挑战,开发者可自由修改和部署开源模型,有更多高质量选择。

  • 低训练成本:DeepSeek - V3训练成本极低,团队虽未详述实现方式(归功于精心工程优化),但持续改进的MoE可能是关键。此前研究也表明MoE在训练成本和性能上有优势。

若DeepSeek - V3的成果可复制,将显著影响基础模型训练成本,更多团队有能力训练类似GPT - 4o水平的模型,降低与AI巨头竞争的成本。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据分析能量站

谢谢支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值