DeepSeek 公开新的模型权重

最新推荐文章于 2025-05-05 18:32:17 发布

数据分析能量站

最新推荐文章于 2025-05-05 18:32:17 发布

阅读量1.4k

点赞数 7

分类专栏：机器学习文章标签：人工智能

本文链接：https://blog.csdn.net/qq_22337877/article/details/145291746

版权

153 篇文章

订阅专栏

DeepSeek - V3是一款开源大语言模型，在关键基准测试中超越了Llama 3.1 405B和GPT - 4o ，尤其在编码和数学任务中成绩优异。

除特定受限应用（军事、伤害未成年人、生成虚假信息等）外，模型权重开源，可在线下载。

工作原理

混合专家架构（MoE）：DeepSeek - V3是MoE型Transformer模型，有6710亿个参数，运行时370亿参数激活。相比Llama 3.1 405B，训练时间大幅缩短（279万个GPU小时，不到其1/10 ），成本仅560万美元。
训练数据：使用约15万亿词元训练，编码和数学数据占比高于DeepSeek - V2。借助DeepSeek - R1和DeepSeek - V2.5的输出进行多任务微调，再用组相对策略优化的强化学习算法提升多领域性能。
双词元预测：借鉴先前研究，训练模型预测下两个词元。先按常规预测第一个词元，再用额外层预测第二个词元（推理时不使用该额外层）以提升性能。
多头潜在注意力：沿用DeepSeek - V2的多头潜在注意力机制，相比其他注意力变体，执行时更节省内存。
专家组合模式：和DeepSeek - V2相似，结合专用（路由）专家与共享专家。针对特定输入从256个专家选8个，同时设一个处理所有输入的共享专家。

测试结果

全面超越部分模型：DeepSeek测试显示，DeepSeek - V3全面超越Llama 3.1 405B和Qwen 2.5 72B ，性能与GPT - 4o相当。
编码任务表现：在编码任务的七个基准测试中，DeepSeek - V3在五项中占优。但在Polyglot测试（评估多语言复杂代码生成能力）中，输给了o1 ，不过超过了Claude Sonnet 3.5。
语言任务表现：在语言任务中，与Claude 3.5 Sonnet表现相近，不同任务有不同得分高低。

OpenAI的o1模型依靠能动工作流程（如反思输出、使用工具）表现出色，而DeepSeek - V3未依赖此类流程却取得优异成绩。

重要意义