DeepSeek开源了哪些模型,你知道吗?

蛇年春节期间,中国AI公司深度求索(DeepSeek)凭借其低成本、高性能的开源大模型引发全球热潮。其应用日活跃用户数突破2000万,上线仅20天即登顶全球140个国家应用商店下载榜,用户增速达ChatGPT同期的13倍。DeepSeek的爆火源于多元化的应用场景:超60%用户用于旅行攻略、翻译及方言学习,40%用于学习各地麻将规则,30%尝试“赛博算命”等娱乐功能。技术层面,其模型训练成本仅为行业标杆的7%,并通过自研推理加速引擎实现高效部署,吸引微软、亚马逊、华为等全球云厂商争相接入,推动AI生态开源化。本文简单介绍下deepseek在github上开源的热门项目(截至2025年2月5日)。

DeepSeek-V3 Star 73k

GitHub - deepseek-ai/DeepSeek-V3

DeepSeek-V3是目前APP和WEB页面不勾选深度思考时所使用的模型,它是一个强大的混合专家(MoE)语言模型,总参数为671B,每个令牌激活37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这些架构在DeepSeek-V2中得到了充分的验证。此外,DeepSeek-V3开创了一种用于负载平衡的辅助无损耗策略,并设定了多令牌预测训练目标以提高性能。在14.8万亿个多样化和高质量的代币上对DeepSeek-V3进行预训练,然后进行监督微调和强化学习阶段,以充分利用其功能。综合评估显示,DeepSeek-V3的表现优于其他开源模型,其性能可与领先的闭源模型相媲美。尽管性能卓越,DeepSeek-V3只需要2.788M H800 GPU小时即可进行全面训练。此外,它的训练过程非常稳定。在整个训练过程中,没有遇到任何不可挽回的损失高峰或任何倒退。

DeepSeek-R1 Star 60.5k

GitHub - deepseek-ai/DeepSeek-R1

DeepSeek-R1是目前APP和WEB页面勾选深度思考时所使用的模型。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,没有监督微调(SFT)作为初步步骤,在推理方面表现出色。通过RL,DeepSeek-R1-Zero自然地出现了许多强大而有趣的推理行为。然而,DeepSeek-R1-Zero遇到了诸如无休止的重复、可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,DeepSeek引入了DeepSeek-R1,它在强化学习之前整合了冷启动数据。DeepSeek-R2在数学、代码和推理任务方面的性能与OpenAI-o1相当。为了支持研究界,DeepSeek开源了DeepSeek-R1-Zero、DeepSeek-R1,以及基于Llama和Qwen从DeepSeek-R2中提取的六个密集模型。 DeepSeek-R1-Distill-Qwen-32B在各种基准测试中表现优于OpenAI-o1-mini,为密集模型实现了state-of-the-art。

DeepSeek-Coder Star 17.4k

GitHub - deepseek-ai/DeepSeek-Coder: DeepSeek Coder: Let the Code Write Itself

DeepSeek Coder由一系列代码语言模型组成,每个模型都是在2T令牌上从头开始训练的,由87%的代码和13%的中英文自然语言组成。DeepSeek提供各种大小的代码模型,从1B到33B版本。每个模型都通过使用16K的窗口大小和额外的填空任务在项目级代码语料库上进行预训练,以支持项目级代码的完成和填充。在编码能力方面,DeepSeek Coder在多种编程语言和各种基准测试的开源代码模型中实现了state-of-the-art。

DeepSeek-Coder-V2 Star 4.8k

GitHub - deepseek-ai/DeepSeek-Coder-V2: DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

DeepSeek-Coder-V2是一种开源的混合专家(MoE)代码语言模型,在特定代码任务中实现了与GPT4 Turbo相当的性能。具体来说,DeepSeek-Coder-V2是从DeepSeek-V2的中间检查点进一步预训练的,额外增加了6万亿个令牌。通过这种持续的预训练,DeepSeek-Coder-V2大大提高了DeepSeek-V2的编码和数学推理能力,同时在一般语言任务中保持了可比的性能。与DeepSeek-Coder-33B相比,DeepSeek-Coder-V2在代码相关任务的各个方面以及推理和通用功能方面都取得了显著进步。此外,DeepSeek-Coder-V2将其对编程语言的支持从86扩展到338,同时将上下文长度从16K扩展到128K。

Janus Star 14.4k

GitHub - deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models

Janus系列是统一的多模态理解和生成模型,即文字生成图片,其包含Janus、JanusFlow和Janus-Pro。

Janus是一个新颖的自回归框架,将多模态理解和生成统一起来。它通过将视觉编码解耦到单独的路径中,同时仍然使用单个统一的转换器架构进行处理,解决了以前方法的局限性。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus超越了以前的统一模型,并匹配或超过了特定任务模型的性能。Janus的简单性、高度灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

JanusFlow引入了一种极简主义架构,将自回归语言模型与校正流相结合,这是生成建模中最先进的方法。DeepSeek的主要发现表明,纠正后的流程可以在大型语言模型框架内直接训练,消除了对复杂架构修改的需要。广泛的实验表明,JanusFlow在各自领域的性能与专用模型相当或更优,同时在标准基准测试中明显优于现有的统一方法。这项工作代表着朝着更高效、更通用的视觉语言模型迈出了一步。

Janus Pro是Janus先前作品的高级版本。具体来说,Janus Pro整合了

(1)优化的训练策略,

(2)扩展的训练数据,

(3)扩展到更大的模型尺寸。通过这些改进,Janus Pro在多模式理解和文本到图像指令跟踪功能方面取得了重大进展,同时也提高了文本到图像生成的稳定性。

DeepSeek-VL2 Star 2.6k

GitHub - deepseek-ai/DeepSeek-VL2: DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

DeepSeek-VL2是一个先进的大型混合专家(MoE)视觉语言模型系列,在其前身DeepSeek VL的基础上进行了显著改进。DeepSeek-VL2在各种任务中表现出卓越的能力,包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉基础。DeepSeek的模型系列由三个变体组成:DeepSeek-VL2-Tiny、DeepSeek-VLS-Small和DeepSeek-VL2,分别具有1.0B、2.8B和4.5B的激活参数。与现有的开源密集型和基于MoE的模型相比,DeepSeek-VL2以相似或更少的激活参数实现了具有竞争力或最先进的性能。

DreamCraft3D Star 2.7k

GitHub - deepseek-ai/DreamCraft3D: [ICLR 2024] Official implementation of DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior

DreamCraft3D,这是一种分层的3D内容生成方法,可以生成高保真和连贯的3D对象。DeepSeek通过利用2D参考图像来指导几何雕刻和纹理增强的各个阶段来解决这个问题。这项工作的核心重点是解决现有作品遇到的一致性问题。为了雕刻出连贯渲染的几何体,DeepSeek通过视图相关的扩散模型进行分数蒸馏采样。这种3D先验,以及几种训练策略,优先考虑几何一致性,但会损害纹理保真度。DeepSeek还提出了Bootstrapd Score Distillation来专门增强纹理。DeepSeek在场景的增强渲染上训练一个个性化的扩散模型Dreambooth,为其注入被优化场景的3D知识。从这种3D感知扩散先验中提取的分数为场景提供了视图一致的指导。值得注意的是,通过交替优化扩散先验和3D场景表示,DeepSeek实现了相辅相成的改进:优化的3D场景有助于训练特定场景的扩散模型,为3D优化提供了越来越一致的视图指导。因此,优化是自举的,并导致了大量的纹理增强。DreamCraft3D通过在整个层次生成过程中定制3D先验,生成具有照片级真实感渲染的连贯3D对象,推进了3D内容生成的最新技术。

总结

DeepSeek-V3 是一个强大的混合专家(MoE)语言模型,总参数达 671B,采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,训练成本低且性能卓越,表现优于许多开源模型,甚至媲美闭源模型。DeepSeek-R1 是通过大规模强化学习训练的模型,专注于推理任务,解决了早期版本的语言混合和重复问题,性能与 OpenAI 模型相当。DeepSeek-Coder 系列专注于代码生成,支持多种编程语言,并在项目级代码任务中表现优异。DeepSeek-Coder-V2 进一步提升了编码和数学推理能力,支持更多编程语言和更长的上下文窗口。Janus 系列是多模态理解和生成模型,通过解耦视觉编码和自回归框架,实现了高效的文本到图像生成。DeepSeek-VL2 是先进的视觉语言模型,改进了视觉问答、文档理解等任务。DreamCraft3D 则专注于高保真 3D 内容生成,通过 2D 图像引导几何雕刻和纹理增强,解决了 3D 生成中的一致性问题。这些项目展示了 DeepSeek 在 AI 领域的创新能力和技术领先地位。DeepSeek的崛起不仅加速国产AI生态闭环,更挑战了OpenAI和英伟达的垄断地位,标志着全球AI竞争格局的重塑。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值